摘要
本发明具体涉及一种结合注意力机制和A2C算法的雷达智能抗干扰方法,包括:构建雷达、目标与干扰机对应的马尔可夫决策过程MDP模型,并定义MDP模型对应的状态空间、动作空间以及多目标奖励函数;利用基于自注意力机制的预处理层对状态数据进行特征提取,获取对应的状态特征;其中,状态数据包括干扰信号频率信息;利用演员网络确定状态特征对应的频率捷变策略;控制雷达执行频率捷变策略,以采集更新的状态数据;将更新的状态数据、频率捷变策略输入评论家网络,获取当前状态下的动作值函数的时间差分偏差;利用时间差分偏差对演员网络进行梯度更新,利用更新后的梯度对演员网络的网络参数更新,以利用网络参数更新后的演员网络生成频率捷变策略。
技术关键词
智能抗干扰方法
注意力机制
频率
策略
矩阵
雷达抗干扰
更新网络参数
数据
偏差
算法
定义
计算机程序产品
跳频
处理器
决策
载波