摘要
本发明公开了一种基于多智能体强化学习的组网雷达协同欺骗干扰决策方法,首先建立组网雷达协同校验模型,并进行组网雷达校验与融合,再建立多智能体协同欺骗干扰组网雷达策略优化模型,将面向组网雷达的多智能体协同欺骗干扰决策问题描述为一个分布式马尔可夫决策过程,最后采用ADM‑MATD3强化学习算法对多智能体协同欺骗干扰组网雷达的策略进行求解。本发明的方法能够使智能体学习雷达波束内不同可行策略之间差异的同时提高策略搜索效率、输出精准策略,相比现有多智能体强化学习算法具有更快的收敛速度和更高的求解效率、决策可行性,有效解决了多智能体协同欺骗干扰组网雷达策略优化问题,显著提升了干扰效果。
技术关键词
组网雷达
多智能体强化学习
干扰决策方法
多智能体协同
策略优化模型
表达式
强化学习算法
动态搜索方法
多头注意力机制
协方差矩阵
坐标系
方位角
波束
特征值
校验模型