摘要
本公开实施例是关于一种非专家数据辅助的元强化学习跳频干扰资源分配方法,包括:根据通信对抗场景构建跳频干扰资源分配问题;将跳频干扰资源分配问题建模为马尔可夫决策过程;随机初始化元策略得到初始策略网络;基于MAML算法对初始策略网络进行元训练,其中,元训练包括:在特定任务适应阶段,基于非专家数据,利用强化学习损失函数和行为克隆损失函数对初始策略网络进行优化训练,得到特定任务策略,并计算各干扰任务的强化学习损失;在元优化阶段,最小化所有干扰任务的强化学习损失,并得到优化后的分配策略;根据新的干扰任务对优化后的分配策略进行微调。本公开结合强化学习和行为克隆从非专家数据中提取有用信息,实现高效的策略探索。
技术关键词
跳频干扰
资源分配方法
策略
数据
网络
阶段
参数
决策
干扰加噪声
算法
场景
信道
功率
频率
符号
信号
轨迹
因子
节点
系统为您推荐了相关专利信息
质控系统
超声扫查设备
对比度
多尺度
深度学习模型
模型构建方法
指数
生物年龄评价方法
高效液相色谱
免疫球蛋白