摘要
本发明公开了一种面向动态频谱共享的异构多智能体熵正则化资源分配方法,属于无线网络通信技术领域,包括加载基础训练器,管理后续强化学习的过程;构建仿真环境,建立数学模型,初始化参数解析,构建训练环境与评估环境,并创建智能体;用随机策略生成初始经验数据并填充经验回放缓冲区,在达到预设的预热步数后返回最终状态,正式训练将从经验回放缓冲区采样数据更新网络;开启正式训练流程,智能体与环境交互,存储经验数据到缓冲区;通过策略梯度优化策略网络,用TD误差优化评价网络。本发明采用上述方法,解决了传统DRL方法在频谱分配中因策略收敛到次优而导致的性能瓶颈问题,通过随机策略优化实现了接近全局最优的资源配置效率。
技术关键词
动态频谱共享
资源分配方法
强化学习策略
仿真环境
路径损耗模型
Rician信道
认知无线通信系统
下无线通信系统
频段
信噪比
无线网络通信技术
检测信道状态
时分多址协议
训练器
异构多智能体