一种非专家数据辅助的元强化学习跳频干扰资源分配方法

正文

推荐专利

申请号：CN202510026442

申请日期：2025-01-08

公开号：CN119865208B

公开日期：2025-09-26

类型：发明专利

摘要

本公开实施例是关于一种非专家数据辅助的元强化学习跳频干扰资源分配方法，包括：根据通信对抗场景构建跳频干扰资源分配问题；将跳频干扰资源分配问题建模为马尔可夫决策过程；随机初始化元策略得到初始策略网络；基于MAML算法对初始策略网络进行元训练，其中，元训练包括：在特定任务适应阶段，基于非专家数据，利用强化学习损失函数和行为克隆损失函数对初始策略网络进行优化训练，得到特定任务策略，并计算各干扰任务的强化学习损失；在元优化阶段，最小化所有干扰任务的强化学习损失，并得到优化后的分配策略；根据新的干扰任务对优化后的分配策略进行微调。本公开结合强化学习和行为克隆从非专家数据中提取有用信息，实现高效的策略探索。

技术关键词

跳频干扰资源分配方法策略数据网络阶段参数决策干扰加噪声算法场景信道功率频率符号信号轨迹因子节点

系统为您推荐了相关专利信息

一种基于人工智能的甲状腺扫查质控系统

质控系统超声扫查设备对比度多尺度深度学习模型

一种基于改进YOLOv8的血细胞检测方法

多尺度特征融合图像白细胞椒盐噪声抑制算法

一种基于大语言模型的策略生成与评估方法、介质及设备

大语言模型策略文本生成方式抽象语法树

基于血浆免疫球蛋白G的N-糖基化谱型的生物年龄评价方法

模型构建方法指数生物年龄评价方法高效液相色谱免疫球蛋白

基于混淆策略的跨平台网络用户对齐干扰方法和装置

干扰方法网络用户策略节点保护用户隐私

一种非专家数据辅助的元强化学习跳频干扰资源分配方法

站点导航

APP 下载