摘要
本发明涉及机械臂视觉伺服控制技术领域,具体提供一种基于深度强化学习的机械臂视觉伺服控制方法,具体步骤如下:设定靶标位置并选取靶标上的特征点,随机选取机械臂的起点位姿,并逐步向目标位姿运动,依据机械臂上一步运动的关节速度和位姿计算当前位姿的关节角度,下一步运动的关节速度由Actor网络依据上一步运动的关节速度、当前位姿的关节角度和特征点误差进行选取;对于每一步运动,评价函数都会对应给出评价值,用以评价并提升Actor网络选取关节速度的能力,根据评价值计算奖励,当奖励平均值递增且每幕奖励趋势趋于平稳,则整体训练结束。本发明所提供的机械臂伺服控制方法不依赖训练数据,可实现大范围的伺服任务,提高了伺服控制精度。
技术关键词
视觉伺服控制方法
深度强化学习
特征点
相机模型
靶标
视觉伺服控制技术
网络
机械臂关节
投影变换方法
速度
机械臂运动学
误差
SAC算法
图像
坐标