摘要
本发明公开了一种基于强化学习奖励塑造的分布式多智能体路径规划方法,属于协同路径规划领域。方法包括,对多智能体路径规划问题进行建模;通过设计奖励塑造机制,量化智能体行为对邻居的影响,并将其融入奖励函数,从而引导智能体在最大化自身累计奖励的同时,实现协作性避碰;采用分布式强化学习算法训练智能体,使其基于局部观测数据进行高效的路径规划。本方法通过奖励塑造解决多智能体间因局部观测带来的冲突问题,有效提高多智能体路径规划任务的成功率和效率,并保持推理阶段的低计算开销。本发明适用于大规模多智能体场景中的多智能体路径规划任务,广泛应用于交通运输、物流调度等领域。
技术关键词
分布式多智能体
分布式强化学习
路径规划方法
邻居
策略
协同路径规划
强化学习环境
训练智能体
更新网络参数
指标
深度Q网络
梯度下降法
栅格地图
障碍物
传播算法
系统为您推荐了相关专利信息
覆盖路径规划方法
强化学习网络
深度强化学习
矩阵
双通道信息
智能检测方法
患者
超声检测仪器
甲状腺结节检测
深度学习算法
围捕方法
多机器人系统
分布式方式
机器人系统设计
拓扑图