摘要
本发明提供一种基于多智能体合作的通信系统功率分配方法,步骤包括:构建融合了6GHz以下的低频基站LF‑BS和毫米波高频基站HF‑BS的高低频协同组网场景,每个HF‑BS作为一个智能体实例;构建智能体的状态空间、动作空间和奖励函数,并在构建奖励函数时融入合作博弈理念,将奖励函数定义为系统容量、能量效率及干扰惩罚之间的约束关系模型,由奖励函数设定优化目标;在奖励函数设定优化目标后,使用双层深度强化学习算法架构进行子带选择和功率分配,其中上层使用深度Q网络DQN选择子带,下层使用深度确定性策略梯度DDPG进行功率分配,并在下层DDPG的Critic网络的第一、二层全连接之间加入多头注意力机制提高对环境状态和行动的评估。
技术关键词
深度确定性策略梯度
深度强化学习算法
多头注意力机制
深度Q网络
组网场景
最大化系统容量
特征加权融合
低功耗休眠
动态开关
基站
定义
功率控制
载波
信噪比
代表
关系