摘要
本发明公开了一种多级奖励和动作掩码联合优化的机械臂推抓协同方法,包括:借鉴经典深度Q学习推抓协同系统结构,引入推动和抓取掩码限制无效区域探索以提高训练效率;以推动前后变化区域中关联物体的分散度为评判依据,设计多级推动奖励,更准确地评估推动效果;在抓取过程中引入垂直方向扰动和水平方向扰动,根据抓取动作抗扰动的能力设计了多级抓取奖励,准确量化抓取动作性能。搭建仿真训练场景,机械臂采用深度Q学习算法与仿真环境不断交互,同时根据网络决策动作类型,动态选择并更新对应的网络参数。仿真环境中训练好的网络模型可直接移植到实物平台,显著提高了密集杂乱场景中抓取成功率。
技术关键词
协同方法
抓取动作
仿真环境
深度Q学习
深度图
抓取网络
像素点
深度相机
矩阵
机械臂逆运动学
贪婪策略
训练场景
抓取物体
决策
坐标
系统为您推荐了相关专利信息
三维建模方法
三维模型
对象
旋转烤盘
控制烹饪设备
无人机电力巡检
稀疏贝叶斯
避障系统
栅格地图
数字地图信息