基于内在值对齐离线到在线强化学习的机器人自主控制方法及装置

正文

推荐专利

申请号：CN202510834761

申请日期：2025-06-20

公开号：CN120862657A

公开日期：2025-10-31

类型：发明专利

摘要

本发明公开了一种基于内在值对齐离线到在线强化学习的机器人自主控制方法及装置，该方法步骤包括：采用离线到在线强化学习方法对被控机器人的控制策略进行学习训练；在离线预训练阶段，将状态价值函数分解为内在状态价值函数和优势价值函数，并采用动态加权机制进行融合，以基于内在价值信息学习进行机器人控制值更新；在线微调阶段，通过将Q值函数与内在状态价值函数进行对齐，以将内在价值信息作为参考信息潜入在线微调阶段的Q值更新过程，实现Q值函数、内在状态价值函数以及当前控制策略三者的同步学习。本发明能够有效提高策略优化的准确性和效率，使机器人能够在有限的在线交互下快速适应真实环境，提升实际任务执行能力。

技术关键词

机器人自主控制离线在线强化学习方法控制策略阶段策略更新策略优化方法机器人控制系统评估机器人概率分布函数可读存储介质存储计算机程序表达式机制噪声处理器

系统为您推荐了相关专利信息

智能座舱的控制方法、计算机程序产品、车载控制器及介质

生理体征数据控制策略强化学习模型计算机程序产品车载控制器

离线语音数据的处理方法及装置、设备和存储介质

语音识别模型长短期记忆网络梅尔频率倒谱系数数据麦克风阵列

虚拟输入输出设备队列在线管理方法、装置、产品及介质

在线管理方法输入输出设备队列管理多队列列表

空气源热泵零电供热控制方法、装置、设备及存储介质

供热控制方法热源协调优化控制控制策略智能调度控制

一种光储并网-离网运行方法

能源管理系统离网储能单元电流型控制方法光伏发电单元

基于内在值对齐离线到在线强化学习的机器人自主控制方法及装置

站点导航

APP 下载