摘要
本发明公开了一种多智能体系统及其深度强化学习负载均衡方法,这种方式降低了智能体选择动作的复杂性,能更容易达到整体上的性能最优。本发明将请求分配划分为两个阶段,第一个阶段中央智能体选择数据中心,第二个阶段本地智能体选择节点,从而避免多智能体环境不稳定的问题。此外对每个智能体的请求分配都建模成马尔科夫决策过程,对状态空间、动作空间、奖励函数和状态转移的定义做了详细的说明。在网络结构方面,本发明采用了对决网络,相较于单流的Q网络,对决网络具有学习更快更好的特点。在探索与利用方面,本发明使用了改进的面向负载均衡的动作探索策略。最后,本发明给出了算法的伪代码和学习过程图,说明了算法的训练过程。
技术关键词
多智能体系统
深度强化学习算法
负载均衡方法
分布式数据中心
节点
资源
决策
分支
内存
实体
阶段
时间段
熵权法
策略
网络结构
调度器
系统为您推荐了相关专利信息
大语言模型
数据处理方法
节点
关系
数据处理装置
瓦片
智能模型
神经网络处理器
策略
资源调度方法