摘要
本发明提出一种基于强化学习的通信干扰决策方法,包括下列步骤:建立通信对抗场景模型,依据场景确定指标以评估干扰效果;将学习过程抽象成马尔可夫过程,采用ε‑greedy策略确定Q值更新准则;根据不同通信对抗背景具体化马尔可夫过程、设置奖励函数;设计基于ε时变的Q‑Learning通信干扰决策方法具体步骤;对两个不同场景通信干扰实施进行实验仿真,从多个方面验证基本发明的优点。本发明通过对算法策略求解可以得到在通信对抗条件下我方实施干扰的最佳决策,完成对对方未知信号的跟踪与干扰,并在多个方面较好地优化了传统算法的缺陷。
技术关键词
干扰决策方法
频率
策略
场景
表达式
因子
切换通信信道
状态更新
建立通信
转移概率矩阵
有效性
序列
决策算法
定义
采取行动
信号
系统为您推荐了相关专利信息
密钥管理系统
节点
负载均衡方法
负载均衡策略
周期
识别方法
音频
声音传感器
声学特征
图像采集装置
非线性特征
噪声样本
傅里叶基函数
调制识别方法
频率
代码生成方法
代码生成系统
文本
语义
大语言模型