摘要
本发明涉及一种基于多智能体强化学习算法的信道争用优化方法。首先,基于多智能体Actor‑Critic的强化学习算法,根据网状无线网络的拓扑结构和动态特性,建模一个五维度的马尔可夫决策过程;为每个actor构建一个神经网络;通过构建无线网状网络端到端延迟模型和信道效率模型,并设置无线网状网络奖励机制及其平衡方法。然后,基于以上步骤构建了无线网状网络信道争用目标函数。通过设计强化学习方法,并引入对抗训练,获得优化的无线网状网络信道争用目标函数。最后对所得目标函数的收敛性和稳定性进行验证。本方法解决现有技术中无线网状网络优化方法中容易陷入局部最优和面临高维动作空间时优化效率低下的问题。
技术关键词
信道争用
多智能体强化学习
无线网状网络
神经网络参数
网状无线网络
强化学习算法
强化学习方法
接入点
轨迹
平衡方法
对抗性
奖励计算方法
无线网络拓扑
定义系统
功率
机制
模块
系统为您推荐了相关专利信息
模糊神经网络模型
温度监测控制方法
箱式变电站
神经网络参数
控制器
浓度预测方法
LSTM模型
校准
数据
入口烟气温度
气压
氢气阀门
卷积神经网络参数
归一化方法
压力
节点资源分配方法
地面控制站
深度强化学习模型
任务调度模型
移动设备