基于内在值对齐离线到在线强化学习的机器人自主控制方法及装置

AITNT
正文
推荐专利
基于内在值对齐离线到在线强化学习的机器人自主控制方法及装置
申请号:CN202510834761
申请日期:2025-06-20
公开号:CN120862657A
公开日期:2025-10-31
类型:发明专利
摘要
本发明公开了一种基于内在值对齐离线到在线强化学习的机器人自主控制方法及装置,该方法步骤包括:采用离线到在线强化学习方法对被控机器人的控制策略进行学习训练;在离线预训练阶段,将状态价值函数分解为内在状态价值函数和优势价值函数,并采用动态加权机制进行融合,以基于内在价值信息学习进行机器人控制值更新;在线微调阶段,通过将Q值函数与内在状态价值函数进行对齐,以将内在价值信息作为参考信息潜入在线微调阶段的Q值更新过程,实现Q值函数、内在状态价值函数以及当前控制策略三者的同步学习。本发明能够有效提高策略优化的准确性和效率,使机器人能够在有限的在线交互下快速适应真实环境,提升实际任务执行能力。
技术关键词
机器人自主控制 离线 在线 强化学习方法 控制策略 阶段 策略更新 策略优化方法 机器人控制系统 评估机器人 概率分布函数 可读存储介质 存储计算机程序 表达式 机制 噪声 处理器
系统为您推荐了相关专利信息
1
智能座舱的控制方法、计算机程序产品、车载控制器及介质
生理体征数据 控制策略 强化学习模型 计算机程序产品 车载控制器
2
离线语音数据的处理方法及装置、设备和存储介质
语音识别模型 长短期记忆网络 梅尔频率倒谱系数 数据 麦克风阵列
3
虚拟输入输出设备队列在线管理方法、装置、产品及介质
在线管理方法 输入输出设备 队列管理 多队列 列表
4
空气源热泵零电供热控制方法、装置、设备及存储介质
供热控制方法 热源 协调优化控制 控制策略 智能调度控制
5
一种光储并网-离网运行方法
能源管理系统 离网 储能单元 电流型控制方法 光伏发电单元
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号