一种基于强化学习的双臂协同规划方法、系统、设备及介质

正文

推荐专利

申请号：CN202511536392

申请日期：2025-10-27

公开号：CN121004618A

公开日期：2025-11-25

类型：发明专利

摘要

本发明公开了一种基于强化学习的双臂协同规划方法、系统、设备及介质，属于机械臂控制技术领域，包括：构建马尔可夫决策模型；根据状态空间中的当前状态，生成控制动作，得到左臂末端执行器和右臂末端执行器的三维位移增量指令；响应三维位移增量指令执行双臂协同控制后，计算混合奖励函数；对执行轨迹进行经验增强处理，对失败轨迹进行目标重设，生成伪目标经验并将原始经验和伪目标经验存储至回放缓存；根据回放缓存中的经验样本，更新策略网络和Q值网络参数，完成双臂协同轨迹规划策略的优化。本发明通过融合最大熵强化学习与经验回放机制，有效解决了双臂协同规划中的稀疏奖励和局部最优问题，提升了训练效率和策略泛化能力。

技术关键词

末端执行器协同规划方法策略双臂机器人轨迹机械臂控制技术逆运动学障碍物指令参数网络架构决策机制算法规划系统样本关节处理器

一种基于强化学习的双臂协同规划方法、系统、设备及介质

站点导航

APP 下载