摘要
传统频谱管理已无法满足物联网设备日益动态和高效利用的需求。本发明提出了基于联邦深度强化学习框架,结合联邦学习、图神经网络(GNN)和深度Q网络(DQN)的一种动态频谱接入方案。在该方案中,GNN承担着Q值预测任务,充分发挥其捕获设备间关系和环境特征的能力。与此同时,DQN通过与环境的交互学习,不断地调整策略以最大化长期累积奖励。为增强模型的稳定性和学习效率,我们还应用了经验回放缓冲、固定间隔更新目标网络等技术。特别地,FedAge算法的运用有助于协调多设备间的知识共享与模型更新,进一步提升整个系统的性能和运行效率。多次仿真训练结果表明,本发明的系统模型在收敛效果、稳定性和运行效率方面均优于传统方案的系统模型。
技术关键词
动态频谱环境
深度Q网络
深度强化学习
Agent模型
强化学习技术
模型更新
智能体模型
更新网络参数
特征提取能力
分布式智能
交互历史
算法思想
频谱管理
决策
学习设备
物联网设备
贪婪策略
神经网络模型
模型算法