摘要
本发明提供一种基于反事实基线的无人机集群近端策略优化协同对抗方法,涉及无人机集群空对空对抗博弈决策技术领域。本方法首先设定无人机集群空‑空对抗的场景,并设定无人机集群位置和动力学模型;运用多智能体强化学习算法构建基于部分可观测的无人机集群空‑空协同对抗模型;设定无人机集群的观测状态空间、动作空间、奖励函数;并通过多智能体近端策略优化引入反事实基线方法提升无人机之间的合作关系;计算双方无人机集群在回合中的奖励值、击敌数量和损失数量,直至达到回合设定值,完成无人机集群协同对抗仿真。该方法使得无人机集群能够以分散的方式学习合作策略,提升无人机集群的协作,无人机集群达到更多的击敌数量和更少的损失数量。
技术关键词
无人机集群对抗
导弹
基线
无人机集群协同
多智能体强化学习
编码向量
六自由度动力学模型
博弈决策技术
定义
网络
速度
动作策略
场景
参数
算法
误差