一种基于次优策略与价值引导强化学习的机器人跨任务控制方法

AITNT
正文
推荐专利
一种基于次优策略与价值引导强化学习的机器人跨任务控制方法
申请号:CN202510737484
申请日期:2025-06-04
公开号:CN120822540A
公开日期:2025-10-21
类型:发明专利
摘要
本发明公开了一种基于次优策略与价值引导强化学习的机器人跨任务控制方法,用于解决机器人跨任务迁移控制问题。方法包括:S1、定义机器人跨任务迁移问题,把机器人的不同部位的属性进行调整,创建机器人的不同变体作为不同的控制任务,这些任务具有不同的转移概率,然后对源任务和目标任务的马尔可夫决策过程进行建模;S2、收集对应任务的少量次优专家策略,构建次优专家策略库,预训练次优价值网络;S3、初始化机器人模型参数,在源任务中进行强化学习预训练,保存模型;S4、迁移机器人模型至目标任务中进行微调,同时结合策略约束与价值网络指导加速学习;S5、根据训练进度调整超参数并随机选择价值网络计算损失函数直至微调结束;S6、收集训练结束后的模型,测试机器人在目标任务上的性能。本方法在机器人跨任务控制中表现效果较好。
技术关键词
机器人模型 测试机器人 网络 超参数 控制策略 决策 定义方法 多任务 频率 人类 误差 数据
系统为您推荐了相关专利信息
1
一种建筑幕墙监控数据处理可视化方法及系统
监控数据处理 极限学习机算法 建筑幕墙 可视化方法 谐振
2
智能电表数据电力负荷预测方法、装置、设备及介质
电力负荷预测方法 智能电表数据 负荷预测模型 轮廓系数 短期电力负荷预测
3
临地安防无人机视角实时目标检测轻量化的网络结构、方法
安防无人机 残差模块 采样模块 网络结构 数据增广方法
4
工业机器人运动规划方法、设备和存储介质
混合深度学习模型 工业机器人 空间拓扑关系 多模态传感器 决策算法
5
一种基于图像处理的喉咙病变辅助检测方法、装置及设备
辅助检测方法 喉咙 图像增强 图像数据预处理 计算机程序指令
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号