摘要
本发明公开了一种基于内在值对齐离线到在线强化学习的机器人自主控制方法及装置,该方法步骤包括:采用离线到在线强化学习方法对被控机器人的控制策略进行学习训练;在离线预训练阶段,将状态价值函数分解为内在状态价值函数和优势价值函数,并采用动态加权机制进行融合,以基于内在价值信息学习进行机器人控制值更新;在线微调阶段,通过将Q值函数与内在状态价值函数进行对齐,以将内在价值信息作为参考信息潜入在线微调阶段的Q值更新过程,实现Q值函数、内在状态价值函数以及当前控制策略三者的同步学习。本发明能够有效提高策略优化的准确性和效率,使机器人能够在有限的在线交互下快速适应真实环境,提升实际任务执行能力。
技术关键词
机器人自主控制
离线
在线
强化学习方法
控制策略
阶段
策略更新
策略优化方法
机器人控制系统
评估机器人
概率分布函数
可读存储介质
存储计算机程序
表达式
机制
噪声
处理器
系统为您推荐了相关专利信息
生理体征数据
控制策略
强化学习模型
计算机程序产品
车载控制器
语音识别模型
长短期记忆网络
梅尔频率倒谱系数
数据
麦克风阵列
在线管理方法
输入输出设备
队列管理
多队列
列表
供热控制方法
热源
协调优化控制
控制策略
智能调度控制
能源管理系统
离网
储能单元
电流型控制方法
光伏发电单元