摘要
本发明公开了一种基于动作分支架构价值优势学习的机械臂抓取方法及系统,该方法包括:将机械臂抓取任务建模为马尔可夫决策问题;基于动作空间,引入VA学习算法,搭建动作分支结构的主网络和目标网络;基于贪婪策略,对所述主网络和目标网络进行训练,并累积经验回放池;根据实际场景进行设置,结合贪婪策略和所述经验回放池,完成目标抓取任务。该系统包括:建模模块、网络构建模块、机械臂训练模块。通过使用本发明,使用基于动作分支架构的深度学习算法探索确定性策略,能够更好的处理机械臂的离散状态动作空间,进而提高控制性能。本发明可广泛应用于机械臂控制领域。
技术关键词
机械臂抓取方法
贪婪策略
分支
网络
机械臂抓取系统
机械臂抓取装置
场景
深度学习算法
回放方法
模块
处理器
参数
坐标系
程序
存储器
因子
代表