摘要
本发明公开了一种基于强化对比学习算法的人形机器人运动控制方法及装置,建立人形机器人的训练环境;构建初始神经网络模型和强化对比学习算法框架;确定训练环境的域随机化参数和奖励函数;基于奖励函数和域随机化参数,在训练环境中通过强化对比学习算法框架对初始神经网络模型进行训练,得到训练完成的神经网络模型;建立虚拟测试环境,并将训练完成的神经网络模型部署至虚拟测试环境进行模型测试调优,得到目标神经网络模型;将目标神经网络模型部署至人形机器人中,以对人形机器人进行运动控制。本发明提高了人形机器人运动控制的稳定性,同时利用域随机化参数模拟了真实环境的参数,提高了模型的泛化性和鲁棒性。
技术关键词
神经网络模型
虚拟测试环境
学习算法
运动控制方法
非临时性计算机可读存储介质
人形机器人关节
生成动作
仿真环境
运动控制装置
框架
处理器
噪声参数
位置跟踪
策略
多环境