摘要
本发明公开了一种基于深度强化学习的双机械臂协同运动规划方法,包括:搭建工作台仿真环境,供双机械臂在该环境中进行协同运动规划和测试;建立双机械臂运动规划系统深度强化学习模型,该模型根据每个时间步双机械臂的当前状态进行决策以输出双机械臂的动作指令,并在双机械臂的状态更新后计算得到执行所述动作指令的奖励值;生成专家轨迹并存储到经验回放池中,作为专家样本;将不同时间步形成的状态、动作指令、奖励值分组存储到经验回放池中,作为经验样本;定期从所述经验回放池中抽取样本进行批量训练并更新模型参数。本发明还提供一种系统、电子设备以及存储介质。本发明可在有限空间内高效完成具有末端姿态约束的双机械臂协同运动任务。
技术关键词
末端执行器
运动规划系统
深度强化学习模型
协同运动规划方法
更新模型参数
样本
仿真环境
状态更新
双机械臂协同
关节
电子设备
指令
定义
偏航误差
系统为您推荐了相关专利信息
视觉伺服控制方法
机器人末端执行器
电力
坐标系
相机
多层神经网络模型
递归神经网络模型
分布式云
神经网络算法
分片
编码向量
数据拟合方法
参数集合生成设备
运动轨迹数据
设备运动轨迹
模型参数校准方法
模糊逻辑
深度神经网络
活性污泥反应器
智能优化技术