摘要
本发明公开了一种基于约束奖励的深度强化学习四足机器人运动控制方法及系统,建立四足机器人深度强化学习的仿真训练环境;确定仿真训练环境的奖励函数、域随机化参数和成本约束函数;基于机器人信息和第一模拟环境信息,在仿真训练环境中通过奖励函数和成本约束函数对初始策略网络模型进行训练,得到训练完成的策略网络模型;建立推理测试环境,并将训练完成的策略网络模型部署至推理测试环境进行模型推理测试调优,得到目标策略网络模型;将目标策略网络模型部署至四足机器人中,以对四足机器人进行运动控制。本发明降低了仿真训练环境与真实环境的差异,使得四足机器人在真实环境中被目标策略网络模型稳定控制。
技术关键词
策略网络模型
四足机器人
深度强化学习
关节
非临时性计算机可读存储介质
生成动作
加速度
运动控制系统
教师
参数
处理器通信
网络结构
决策
模块
系统为您推荐了相关专利信息
动作预测模型
环境感知信息
运动执行机构
关节空间轨迹
末端执行器
触控阵列
穿戴设备
弹性悬挂机构
阻尼可调式减震器
长度可调式
前列腺穿刺机构
穿刺针
多模态辅助
穿刺枪
标本容器
生物标志物
间质性肺病
诊断试剂盒
诊断类风湿关节炎
筛查产品