摘要
本发明公开了一种双足机器人强化学习控制方法,模型预测控制器接收到行走指令后,输出机器人各个关节的期望角度数据给到强化学习神经网络,同时底层的传感系统返回强化学习神经网络实际策略的关节角度数据给神经网络,将模型预测规划的以时间为序列的关节角度与神经网络实际生成的关节角度进行对比,通过设置奖励函数做惩罚的方式将模型预测控制融入到强化学习训练过程中,从而加速强化学习训练的效率,使其更快地具备一个稳定步态。将MPC规划的优秀步态移植到强化学习控制中,在保留MPC的优秀步态的情况下还能提升控制的鲁棒性;同时MPC作为规划器得到的以时间为序列的关节角度数据可以加速强化学习训练过程,大大提升强化学习的训练速度和控制效果。
技术关键词
双足机器人
强化学习控制方法
坐标系
神经网络架构
矩阵
关节电机
力矩
轨迹
强化学习网络
强化学习策略
阻尼器系统
机器人腿部
控制器
数据
速度
虚拟弹簧