摘要
本申请公开了一种基于强化学习的六足机器人腿臂复用控制方法及装置,涉及运动控制领域。所述方法包括:获取目标六足机器人的观测信息;将观测信息输入至控制策略模型,得到目标六足机器人的期望关节角度;控制策略模型是根据构建的多任务训练环境,采用强化学习的方法,基于价值网络对训练架构进行策略更新后得到的;训练架构是基于师生特权学习确定的;价值网络包括依次连接的共享特征层以及多任务头;训练架构包括:状态估计编码器、地形信息编码器、特权信息编码器、历史信息编码器和本体网络;采用PD控制方法基于期望关节角度确定关节力矩,以对目标六足机器人腿臂复用进行控制。本申请可实现对六足机器人的腿臂复用控制。
技术关键词
复用控制方法
信息编码器
六足机器人
控制策略模型
PD控制方法
多任务
关节力矩
增量式方法
网络
策略更新
复用控制装置
参数
碰撞检测算法
动态更新
正向运动学
模式
教师
系统为您推荐了相关专利信息
系统控制方法
语义图谱
控制策略模型
识别置信度
策略优化方法
视频生成方法
图像重建
视频生成模型
生成图像帧
图像超分辨率
轨迹预测方法
轨迹预测模型
两轮车
对齐模块
位移误差