摘要
本发明提供了一种机械手视觉策略模型训练方法、操纵方法及系统。机械手视觉策略模型训练方法包括:获取多个人手操纵物体视频;提取多条参考轨迹;强化学习训练基于状态的策略学习模型,在强化学习训练中,利用参考轨迹计算奖励函数;对基于状态的策略学习模型进行多次回滚,获得视觉训练数据,利用视觉训练数据对机械手视觉策略模型进行训练,在训练过程中,将初始三维场景点云作为机械手视觉策略模型的输入,机械手视觉策略模型输出规划控制信号,基于规划控制信号对应轨迹和回滚动作轨迹计算损失,根据损失调整机械手视觉策略模型的网络参数。本发明使机械手操纵更为自然,无需任何特权对象信息,增强了实际应用能力。
技术关键词
模型训练方法
策略
视觉
物体
轨迹
语义分割模型
阶段
信号
机械手控制系统
图像
人手
机器人指尖
采集机械手
网络
规划
视频
检测器
姿态估计