摘要
本发明公开了一种基于强化学习和信息瓶颈的机器人运动控制方法,包括:利用神经网络建立编码器,该编码器用于将机器人的多模态观测数据编码为状态表征,基于信息瓶颈模型建立用于优化编码器的第一目标函数;建立用于将编码器输出的状态表征转变为机器人运动控制参数的策略网络,并利用熵最大化强化学习建立用于优化策略网络的第二目标函数;利用第一、第二目标函数优化编码器和策略网络;将优化后的编码器和策略网络部署于机器人物理样机,通过策略推理,实现机器人运动控制。本发明基于信息瓶颈模型辅助强化学习,使强化学习策略能利用表达性好的压缩状态表征来更好地选择机器人运动控制参数,实现了高样本效率和较好性能的机器人运动控制。
技术关键词
编码器
机器人运动控制
多层感知机
机器人关节
多模态
瓶颈
数据编码
网络部署
梯度下降算法
触觉传感器
关节力矩
强化学习策略
收集机器人