摘要
本发明公开了一种基于强化学习的双臂协同采摘方法,采用双臂六自由度机器人,电控装置中存储有基于强化学习的双智能体算法,包括行动者网络、评论家网络、经验回放缓冲区、两个智能体以及存储有st信息的环境模块;两个智能体分别对应一个机械臂;两个智能体在工作中连续读取jointt,评估奖励总和rt;通过优势函数计算行动者网络的目标函数,对评论家网络进行优化,执行动态避障策略,执行多目标贪心采摘策略,划分独立工作空间和公共工作空间,实现双臂协作高效采摘苹果。本发明融合了MAPPO强化学习与多目标贪心采摘策略(MOGPS)算法,解决双臂动作同步和任务分配的难题,克服传统算法在双臂协作中的局限性,不仅提高双臂协作采摘效率,还增强机器人在不同作业场景下的适应能力。
技术关键词
双臂六自由度机器人
独立工作空间
机械臂末端执行器
采摘苹果
机械臂关节
障碍物
协作工作空间
策略
电控装置
双臂协作
动态避障
网络
收集容器
智能采摘方法
工作空间划分
风险
系统为您推荐了相关专利信息
模糊控制策略
机械臂控制方法
模糊规则
模糊控制器
机械臂关节
机器人定位抓取
激光视觉引导
混合控制模式
机械臂关节
切换算法
运动轨迹信息
机械臂关节
多关节机械臂
燃料电池电堆
距离信息
深度强化学习
神经网络模型
策略优化方法
机械臂关节
序列