摘要
本发明公开了一种基于次优策略与价值引导强化学习的机器人跨任务控制方法,用于解决机器人跨任务迁移控制问题。方法包括:S1、定义机器人跨任务迁移问题,把机器人的不同部位的属性进行调整,创建机器人的不同变体作为不同的控制任务,这些任务具有不同的转移概率,然后对源任务和目标任务的马尔可夫决策过程进行建模;S2、收集对应任务的少量次优专家策略,构建次优专家策略库,预训练次优价值网络;S3、初始化机器人模型参数,在源任务中进行强化学习预训练,保存模型;S4、迁移机器人模型至目标任务中进行微调,同时结合策略约束与价值网络指导加速学习;S5、根据训练进度调整超参数并随机选择价值网络计算损失函数直至微调结束;S6、收集训练结束后的模型,测试机器人在目标任务上的性能。本方法在机器人跨任务控制中表现效果较好。
技术关键词
机器人模型
测试机器人
网络
超参数
控制策略
决策
定义方法
多任务
频率
人类
误差
数据
系统为您推荐了相关专利信息
监控数据处理
极限学习机算法
建筑幕墙
可视化方法
谐振
电力负荷预测方法
智能电表数据
负荷预测模型
轮廓系数
短期电力负荷预测
安防无人机
残差模块
采样模块
网络结构
数据增广方法
混合深度学习模型
工业机器人
空间拓扑关系
多模态传感器
决策算法
辅助检测方法
喉咙
图像增强
图像数据预处理
计算机程序指令