摘要
本发明提供一种基于群体策略的多智能体强化学习的路径规划方法,智能体策略网包括智能体值函数网络、子团队划分模块和团队协作网络;智能体值函数网络用于输出各智能体执行的当前动作的个体动作价值;子团队划分模块用于根据通过计算智能体间的强相关性,将有强相关性的智能体放入同一子团队中;团队协作网络用于根据子团队划分以及各子团队中的个体动作价值得到所有智能体联合动作的价值,从而完成各智能体的动作预测;计算损失函数更新智能体策略网络中各项网络参数;损失函数包括联合动作价值损失、子团队动作价值损失和个体动作价值损失组成。本发明通过将智能体群划分为多个子团队,将奖励先分配至子团队再分配至个体,能够更加有效的建模个体智能体与全局任务的关系,能够有效解决路径规划过程中的全局奖励分配不精确的问题。
技术关键词
团队
路径规划方法
网络
策略
门控循环单元
队列
线性
注意力机制
关系
判断方法
模块
轨迹
参数
地图
编码
节点
序列
缓冲