摘要
本发明提供了一种基于MAPPO与分层注意力机制结合的多智能体决策方法,每个智能体,将当前时刻的观测状态信息输入至自身引入局部注意力机制的策略网络中输出第一动作,并联合其他智能体的第二动作输入至引入全局注意力机制的价值网络,输出智能体的联合动作;策略网络的局部注意力机制能让智能体聚焦自身周边关键局部信息,价值网络的全局注意力机制可统揽整个战场的宏观情况,可以合理评估各智能体任务价值。当战场形势变化时,本发明可以借助这种双重视角的注意力机制能快速做出动态调整,并且MAPPO算法本身对智能体协作的强化作用,与注意力机制协同,按照任务需求和实时局势动态加权,做出更优化的决策,提高作战成功率。
技术关键词
分层注意力
决策方法
局部注意力机制
网络
策略优化方法
感知周围环境
多头注意力机制
蒙特卡洛方法
数据更新
模块
参数
算法
动态
广义
视角
时序
系统为您推荐了相关专利信息
单灯控制系统
网络控制系统
轨道灯
网络控制方法
亮度
伪造图像检测方法
伪造方法
学习器
混合网络模型
检测模型训练
智能调控方法
压滤机
PID控制器
阶段
长短期记忆网络
性能预测模型
仿真模型
激光熔覆工艺
激光熔覆修复过程
卷积神经网络框架
便携式无线充电
动态特征提取
充电策略
反馈算法
无线充电设备