摘要
本公开实施例是关于一种基于从非完美示例中学习的跳频干扰资源分配方法,包括:根据通信对抗场景构建跳频干扰资源分配问题;将跳频干扰资源分配问题建模为马尔可夫决策过程;随机初始化策略网络参数和判别器网络;对初始化的策略网络进行多次迭代,在每一次策略迭代过程中,基于双重置信域构建策略改进阶段和策略对抗模仿阶段;在策略改进阶段,基于TRPO算法对当前迭代中的初始分配策略进行优化,得到中间分配策略;在策略对抗模仿阶段,利用示例数据和当前迭代中初始分配策略的交互数据训练判别器网络优化中间分配策略,得到当前迭代的最终分配策略。本申请可以引导策略在稀疏奖励环境下正向优化,无需人为设计精细的奖励函数,节省资源耗费。
技术关键词
干扰资源分配方法
策略
跳频干扰
阶段
决策
随机梯度下降
数据
网络优化
算法
轨迹
参数
场景
定义
系统为您推荐了相关专利信息
安全控制方法
发电设备
隔离驱动电路
LSTM神经网络模型
混合整数线性规划
供应链管理系统
库存周转率
需求预测模型
周期
分析单元