摘要
本公开实施例是关于一种基于元深度强化学习的跳频干扰资源分配方法,包括:根据通信对抗场景构建跳频干扰资源分配问题;将跳频干扰资源分配问题建模为马尔可夫决策过程;随机初始化元策略得到初始策略网络;基于MAML算法对初始策略网络进行元训练,元训练包括任务自适应阶段和元自适应阶段,其中,在任务自适应阶段,对初始策略网络的参数进行更新,并基于训练结果利用TRPO算法计算各干扰任务的损失函数,在元自适应阶段,最小化所有干扰任务的平均损失并得到优化后的分配策略;根据新的干扰任务对元训练优化后的分配策略进行微调。本公开实施例可以提升分配策略在动态环境中的快速自适应能力,实现对新跳频干扰资源分配任务的快速优化。
技术关键词
干扰资源分配方法
深度强化学习
策略
接收端
跳频干扰
网络
干扰加噪声
阶段
参数
通信链路
干扰设备
算法
决策
损耗
轨迹
功率
天线
恶意干扰
发射端
系统为您推荐了相关专利信息
自动门
智能巡检方法
巡检机器人
实时监控系统
智能巡检系统
任务分配模型
博弈决策方法
策略
计算机设备
空间飞行器
太阳能热源
深层地热能
储热组件
电加热炉
太阳能设备
原木板材
启发式方法
点云模型
启发式搜索算法
模拟退火算法
音乐生成方法
强化学习模型
生成音乐数据
频谱特征
网络