一种基于从非完美示例中学习的跳频干扰资源分配方法

正文

推荐专利

申请号：CN202410715023

申请日期：2024-06-04

公开号：CN118740198B

公开日期：2025-10-10

类型：发明专利

摘要

本公开实施例是关于一种基于从非完美示例中学习的跳频干扰资源分配方法，包括：根据通信对抗场景构建跳频干扰资源分配问题；将跳频干扰资源分配问题建模为马尔可夫决策过程；随机初始化策略网络参数和判别器网络；对初始化的策略网络进行多次迭代，在每一次策略迭代过程中，基于双重置信域构建策略改进阶段和策略对抗模仿阶段；在策略改进阶段，基于TRPO算法对当前迭代中的初始分配策略进行优化，得到中间分配策略；在策略对抗模仿阶段，利用示例数据和当前迭代中初始分配策略的交互数据训练判别器网络优化中间分配策略，得到当前迭代的最终分配策略。本申请可以引导策略在稀疏奖励环境下正向优化，无需人为设计精细的奖励函数，节省资源耗费。

技术关键词

干扰资源分配方法策略跳频干扰阶段决策随机梯度下降数据网络优化算法轨迹参数场景定义

系统为您推荐了相关专利信息

变电站的安全防护策略确定方法、装置、设备及存储介质

变电设备变电站场景全封闭式隔离开关策略

一种氢电源的安全控制方法

安全控制方法发电设备隔离驱动电路 LSTM神经网络模型混合整数线性规划

一种基于电子鼻和感官品评的饮料酒智能感官模型预测方法

饮料酒感官模型预测方法传感器响应特征值

基于矿山场景的车辆行驶路线选择方法及装置

打滑风险矿山场景路面温度路面粗糙度矿车

基于云计算平台的智能供应链管理系统及方法

供应链管理系统库存周转率需求预测模型周期分析单元

一种基于从非完美示例中学习的跳频干扰资源分配方法

站点导航

APP 下载