摘要
本发明公开了一种基于IH‑MADDPG算法的雷达智能干扰决策方法、系统、电子设备及存储介质,方法如下:S1、随机初始化上层、下层多智能体深度确定性梯度算法智能体的Actor网络、Critic网络以及目标网络;S2、初始化上下层经验回放池{D1,D2,D3};S3、获取初始状态st,由st利用上层多智能体深度确定性梯度得到最优组合干扰样式(a1t,a2t);S4、由(st,a1t)和(st,a2t)利用下层多智能体深度确定性梯度算法得到最优组合干扰的参数S5、执行动作,环境状态变为st+1,计算环境奖励rt1、rt2和好奇心奖励rtb,将经验样本存入经验回放池D1、D2、D3中;S6、当样本数目达到设定值时监督采样得到均匀的样本,更新上下层多智能体深度确定性梯度算法和好奇心奖励。本发明在雷达组网的条件下提高了雷达干扰决策性能。
技术关键词
梯度算法
协同优化方法
样本
上下层
干扰决策方法
网络
雷达工作模式
协同优化系统
样式
电子设备
可读存储介质
采样模块
参数
存储器
策略
处理器
系统为您推荐了相关专利信息
深度强化学习模型
抗干扰算法
干扰特征
雷达
回波
网络拥塞程度
网络性能信息
端口
非暂态计算机可读存储介质
神经网络模型
深度强化学习
支持向量回归模型
门控循环单元
序列生成器
记忆单元
双无人机协同
识别方法
轨迹特征
序列
动态时间规整