摘要
本发明公开了一种基于教师‑学生架构的智能干扰决策方法,包括:描述通信对抗过程为部分可观测随机博弈,定义参与者、环境状态集、观测集、动作集、奖励函数及状态转移函数,构建教师‑学生架构并在此基础上优化干扰策略,干扰策略为学生策略和教师策略结合干预函数定义的混合策略,学生策略通过基于策略反馈的近端策略优化得到,基于策略反馈的近端策略优化采用集成评估网络,并在集成评估网络的目标函数中引入基于策略的截断折扣因子,通过优化集成评估网络和策略网络实现联合信道与功率的干扰决策,求解部分可观测随机博弈的最佳响应策略。该方法在不同抗干扰策略下提高了干扰成功率,累计奖励优于传统算法和已有算法,具备强鲁棒性与适应性。
技术关键词
干扰决策方法
策略
教师
学生
定义
通信信道
通信吞吐量
因子
功率
无人机
轨迹
接收机
更新网络参数
算法
误差
强鲁棒性
估计方法