摘要
本发明公开了一种归一化深度强化学习雷达波形设计方法,包括如下步骤:基于马尔可夫决策过程模型对雷达对抗环境进行建模,将雷达抗干扰问题表述为具有有限视界状态空间的马尔可夫决策过程,确定状态、动作和转换动态,并设定现有深度强化学习算法中的奖励函数;本发明的有益效果是:通过奖励归一化折扣进行增强,提高系统稳定性和学习效率;雷达环境被建模为马尔可夫决策过程,使智能体能够通过与状态空间、动作空间和奖励函数的交互来优化波形策略;与LFM、非归一化D3QN等方法相比,本方法使雷达接收机端信干噪比提高,目标检测概率提高,有效减轻干扰和杂波干扰,为对抗环境中雷达波形产生的自动化和智能化提供了有效途径。
技术关键词
雷达波形设计方法
深度强化学习算法
雷达抗干扰
决策
雷达散射截面
频段
雷达接收机
噪声功率
网络
时间差
策略
参数
指标
动态
信号
偏差
系统为您推荐了相关专利信息
专用模型
分布式系统部署
更新模型参数
日志
数据
钢箱拱桥施工
动态调控方法
实时数据
强化学习算法
精度