摘要
本发明提供一种用于训练四足机器人的强化学习方法,包括通过仿真平台获取机器人和动态平台的观测值,构建包括动态平台仿真环境、估计器、Actor‑Critic网络的强化学习框架;将训练好的策略网络Actor和估计器的参数部署到机器人的控制系统作为机器人的深度强化学习模型;在真实运行过程中,利用实时采集的当前时刻状态信息预测机器人的关节目标角度值作为期望位置输入PID控制器控制机器人关节的扭矩。本发明通过强化学习训练机器人学习不同环境状态下的最优决策策略,从而提升任务完成效率与鲁棒性;并提高在动态平台上的运动性能;通过奖励鼓励四足机器人按照速度指令在动态平台上移动并保持相对稳定的姿势和流畅的动作。
技术关键词
强化学习方法
四足机器人
动态平台
深度强化学习模型
强化学习框架
控制机器人关节
机器人躯干
仿真平台
PID控制器
网络
策略
仿真环境
预测机器人
训练机器人
强化学习算法
决策
机器人本体
系统为您推荐了相关专利信息
协同数据处理方法
患者健康
策略
医院
强化学习方法
深度强化学习方法
面向车联网通信
资源分配
卸载方法
车辆
分布式强化学习
焊接机器人
多机器人协作
机器人状态信息
视觉传感器
协同控制方法
协同优化控制
X射线荧光分析仪
强化学习框架
动态权重分配