摘要
本发明公开了一种基于PPO‑RNN算法的认知干扰决策方法及干扰端,该方法包括:获取作为干扰目标的通信方的实时状态信息;将实时状态信息输入至训练好的基于PPO‑RNN算法的决策模型,得到实时干扰策略,其中,决策模型包括策略网络和价值网络,策略网络包括依序连接的两个全连接层和循环神经网络层。根据本发明提供的方法,通过在决策模型中引入全连接网络和循环卷积网络,能够利用循环卷积网络来捕获干扰目标电磁信号的时序关联性,提高决策效果;并且循环卷积网络还能够提高决策模型的训练速度,缩短其收敛时间,从而能够实现快速决策的目的,增强实时性,还能够提高模型稳定性。
技术关键词
实时状态信息
干扰决策方法
循环卷积网络
策略
联合损失函数
样本
强化学习算法
干扰设备
处理单元
参数
依序
误差
误码率
存储器
因子
处理器
功率