摘要
本发明涉及一种基于深度强化学习的机械臂视觉伺服控制方法及系统。首先,对机械臂进行实时状态观测与碰撞检测,获取观测结果。接着,借助最大熵深度强化学习SAC算法网络架构搭建深度强化学习控制器,并依据观测结果和目标位置构建动作空间、状态空间及奖励函数。然后,基于上述搭建内容输出第一动作表示,再根据其与奖励函数计算结果优化控制器,并用实时轨迹插值策略对第一动作表示平滑优化,得到第二动作表示,依据第二动作表示控制机械臂关节。不断重复上述过程,直至机械臂成功抵达目标位置。与现有技术相比,本发明具有控制实时性高、适用范围大等优点。
技术关键词
深度强化学习
视觉伺服控制方法
SAC算法
机械臂关节
仿真机械臂
视觉伺服控制系统
低通滤波器
网络架构
控制器
机械臂末端执行器
障碍物
平滑度
速度
强化学习策略
轨迹