摘要
本发明公开一种基于先验知识嵌入的LSTM‑PPO模型的智能干扰决策方法及系统,属于人工智能和机器学习领域;其方法包括对多功能雷达环境MFR进行建模,得到环境模型;将MFR干扰决策问题定义为马尔可夫决策过程;基于环境模型的势能函数的重塑奖励理论将先验知识以重塑奖励的形式嵌入PPO模型,以引导智能体快速收敛;使用LSTM代理PPO算法嵌入强化学习模型,用于捕捉回波数据的动态特征以有效刻画雷达工作状态,提升干扰决策精度和稳定性。本发明具有较高的决策效率以及有效性,因而可高效稳健地达成多功能雷达干扰策略。本发明可以基于多功能雷达环境下在算法的收敛速度、稳定性以及执行干扰决策的性能方面均有显著优势。
技术关键词
干扰决策方法
强化学习模型
网络
梯度下降算法
雷达干扰策略
决策系统
定义
理论
回波
策略更新
因子
数学模型
矩阵
动态
方程
进程
系统为您推荐了相关专利信息
串联型电路
单刀双掷开关
宽带可重构
双端口
射频微波集成电路技术
界面
生成软件
大语言模型
元素
卷积神经网络模型
风电功率预测技术
序列
分解算法
噪声
时间卷积网络
温度传感器插座
温度采集模块
机柜装置
分线盒
稳压芯片