一种基于次优策略与价值引导强化学习的机器人跨任务控制方法

正文

推荐专利

申请号：CN202510737484

申请日期：2025-06-04

公开号：CN120822540A

公开日期：2025-10-21

类型：发明专利

摘要

本发明公开了一种基于次优策略与价值引导强化学习的机器人跨任务控制方法，用于解决机器人跨任务迁移控制问题。方法包括：S1、定义机器人跨任务迁移问题，把机器人的不同部位的属性进行调整，创建机器人的不同变体作为不同的控制任务，这些任务具有不同的转移概率，然后对源任务和目标任务的马尔可夫决策过程进行建模；S2、收集对应任务的少量次优专家策略，构建次优专家策略库，预训练次优价值网络；S3、初始化机器人模型参数，在源任务中进行强化学习预训练，保存模型；S4、迁移机器人模型至目标任务中进行微调，同时结合策略约束与价值网络指导加速学习；S5、根据训练进度调整超参数并随机选择价值网络计算损失函数直至微调结束；S6、收集训练结束后的模型，测试机器人在目标任务上的性能。本方法在机器人跨任务控制中表现效果较好。

技术关键词

机器人模型测试机器人网络超参数控制策略决策定义方法多任务频率人类误差数据

系统为您推荐了相关专利信息

一种建筑幕墙监控数据处理可视化方法及系统

监控数据处理极限学习机算法建筑幕墙可视化方法谐振

智能电表数据电力负荷预测方法、装置、设备及介质

电力负荷预测方法智能电表数据负荷预测模型轮廓系数短期电力负荷预测

临地安防无人机视角实时目标检测轻量化的网络结构、方法

安防无人机残差模块采样模块网络结构数据增广方法

工业机器人运动规划方法、设备和存储介质

混合深度学习模型工业机器人空间拓扑关系多模态传感器决策算法

一种基于图像处理的喉咙病变辅助检测方法、装置及设备

辅助检测方法喉咙图像增强图像数据预处理计算机程序指令

一种基于次优策略与价值引导强化学习的机器人跨任务控制方法

站点导航

APP 下载