摘要
本发明公开了一种基于动态图注意力网络和深度强化学习的多智能体编队控制方法、装置和存储介质,本发明通过使用图注意力网络和独立近端策略优化模型,能够将多智能体编队作为一个多节点网络进行处理,具体地,对多智能体编队中的特定智能体通过感知外界所得到的观测信息进行处理,得到特定智能体的动作概率分布,实现对特定智能体的控制;在对多智能体编队的控制过程中,聚焦于特定智能体及其邻居节点,因此可以使用部分智能体感知检测到的观测信息来实现对多智能体编队的控制,可以降低对全局信息的需求,有利于提高控制的实时性,降低因部分智能体故障而导致无法控制的可能性,实现对多智能体编队的有效控制。本发明广泛应用于控制技术领域。
技术关键词
智能体编队控制
深度强化学习
节点
策略优化模型
邻居
网络
稳定特征
多头注意力机制
多智能体编队
参数
障碍物
处理器
梯度方法
计算机装置
矩阵
程序
可读存储介质
存储器