摘要
本发明提供一种基于策略重要性识别和值函数矫正的机器人奔跑控制方法,涉及机器人控制技术领域。本发明使用当前策略的值函数与行为策略的值函数的差代替选择策略的标准;采用策略重要性对策略进行加权评估,即面对不同的策略时,对每种策略进行动态评估,选取一个对长期回报最优的动作;采用Q函数协同矫正的方式来计算目标Q值,进而对当前策略进行多方面的评估。本发明的方法能有效缓解由OOD引起的高估问题,提高智能体在真实环境下的表现性能以及在新环境下的稳定性和鲁棒性,使智能体能够处理更复杂的机器人奔跑任务,如快速变速、急转弯和跳跃等,提高了机器人的整体任务执行能力。
技术关键词
策略
矫正
网络
机器人控制技术
离线
代表
数据
仿真环境
关节
鲁棒性
动态
加速度
因子
偏差
矩阵
指标
算法
系统为您推荐了相关专利信息
海洋渔船
三维可视化模型
视频监控数据
作业场景
船舶结构
更新模型参数
滑坡检测方法
训练集
样本
滑坡检测装置
通信状态检测系统
报文
通信状态检测方法
机器人操作系统
网络
历史气象数据
LSTM模型
皮尔逊相关系数
多策略
超参数