基于强化学习和信息瓶颈的机器人运动控制方法、装置

正文

推荐专利

申请号：CN202510593208

申请日期：2025-05-09

公开号：CN120560016A

公开日期：2025-08-29

类型：发明专利

摘要

本发明公开了一种基于强化学习和信息瓶颈的机器人运动控制方法，包括：利用神经网络建立编码器，该编码器用于将机器人的多模态观测数据编码为状态表征，基于信息瓶颈模型建立用于优化编码器的第一目标函数；建立用于将编码器输出的状态表征转变为机器人运动控制参数的策略网络，并利用熵最大化强化学习建立用于优化策略网络的第二目标函数；利用第一、第二目标函数优化编码器和策略网络；将优化后的编码器和策略网络部署于机器人物理样机，通过策略推理，实现机器人运动控制。本发明基于信息瓶颈模型辅助强化学习，使强化学习策略能利用表达性好的压缩状态表征来更好地选择机器人运动控制参数，实现了高样本效率和较好性能的机器人运动控制。

技术关键词

编码器机器人运动控制多层感知机机器人关节多模态瓶颈数据编码网络部署梯度下降算法触觉传感器关节力矩强化学习策略收集机器人

基于强化学习和信息瓶颈的机器人运动控制方法、装置

站点导航

APP 下载