摘要
本发明公开了一种基于强化学习的双臂协同规划方法、系统、设备及介质,属于机械臂控制技术领域,包括:构建马尔可夫决策模型;根据状态空间中的当前状态,生成控制动作,得到左臂末端执行器和右臂末端执行器的三维位移增量指令;响应三维位移增量指令执行双臂协同控制后,计算混合奖励函数;对执行轨迹进行经验增强处理,对失败轨迹进行目标重设,生成伪目标经验并将原始经验和伪目标经验存储至回放缓存;根据回放缓存中的经验样本,更新策略网络和Q值网络参数,完成双臂协同轨迹规划策略的优化。本发明通过融合最大熵强化学习与经验回放机制,有效解决了双臂协同规划中的稀疏奖励和局部最优问题,提升了训练效率和策略泛化能力。
技术关键词
末端执行器
协同规划方法
策略
双臂机器人
轨迹
机械臂控制技术
逆运动学
障碍物
指令
参数
网络架构
决策
机制
算法
规划系统
样本
关节
处理器
系统为您推荐了相关专利信息
汽车诊断系统
项目
策略
安全监控系统
电子控制单元
粒子群优化算法
参数辨识方法
风力发电机组模型
误差模型
网侧变流器