摘要
本发明基于雷达抗干扰决策生成过程具有明显的马尔可夫决策性质,将强化学习技术引入了雷达抗干扰策略生成问题,提出了一种基于强化学习的雷达抗干扰策略生成方法,将雷达抗干扰策略生成的优化求解过程转换为强化学习的优化求解过程。本申请通过引入强化学习,结合动态学习率、动作探索、优势归一化、奖励缩放和双曲正切激活等机制,提出了一种基于动态学习探索的异步优势演员评论员和归一缩放正切的近端策略优化的雷达抗干扰策略生成方法。该方法能在时频域精准提取不同类型干扰的高维特征,提升抗干扰样式选择和参数选择的精度与环境适应能力,从而提高雷达的抗干扰能力与信息获取能力。
技术关键词
雷达抗干扰
策略生成方法
样式
网络
回波
参数
信号
贪婪策略
强化学习技术
算法
滤波
动态
决策
脉冲
机制
噪声
线性
精度