摘要
本发明公开了一种双足机器人步态网络训练方法,构建双通道深度强化学习架构;采集X个双足机器人在仿真环境的简单地形中的运行状态;根据当前运行状态得到当前奖励,并将各信息合并马尔可夫决策过程存入经验回放区;当经验回放区中的马尔可夫决策过程数目大于预设阈值n,从中随机取预设数量的马尔可夫决策过程,更新主网络和对手网络参数;对主网络参数实施扰动,并模拟人类记忆曲线对主网络超参数clip进行持续性调整;将稳定行走时长达到预设时长的双足机器人移至难度等级更高的地形,重复各网络参数更新过程;不断进行课程学习,直至所有双足机器人的累计奖励信息及稳定行走时长均达到预设值。
技术关键词
双足机器人步态
网络训练方法
策略
仿真环境
深度强化学习
超参数
生成电机
课程学习方法
决策
网络结构
生成控制指令
机器人控制
多层感知器
样本
运动跟踪
系统为您推荐了相关专利信息
可视化管理方法
白名单
可视化管理系统
热力图
人机
障碍物
检测控制方法
制动控制模块
车辆
融合算法
集成化管理系统
分布式计算机
负载均衡模块
博弈论模型
节点
参数计算方法
雾化图像
多边形
初始轮廓
关键特征点
充电站选址定容
灰狼优化算法
位置更新
非线性
优化器