摘要
本发明公开了基于去中心化多智能体强化学习的库存资源调度方法,针对现有的基于多智能体强化学习库存调度方法存在的维数灾难和无法高效进行仓库间协作的问题,提出了基于图的奖励聚合的去中心化多智能体强化学习算法,通过节点之间固有的耦合关系把全局值函数化简为局部值函数,同时剔除冗余信息,减小了值函数的输入维度,降低值函数的拟合难度,并利用奖励聚合机制传递不同节点的偏好信息,以实现高效协作;通过局部值函数训练每个节点的策略,训练完成后每个节点只需要获取自身的观测值就能得到对其拥有资源的分配方案,本发明通过去中心化处理能够处理更加大规模的资源调度问题。
技术关键词
多智能体强化学习
仓库
资源调度方法
资源分配
更新网络参数
库存调度方法
关系
邻居
注意力机制
节点
拓扑图
策略
随机噪声
算法
冗余
因子
系统为您推荐了相关专利信息
接口优化方法
缓存策略
高带宽
数据访问信息
时钟同步
组网雷达
多智能体强化学习
干扰决策方法
多智能体协同
策略优化模型
存储优化方法
立体仓库
时间段
计算机程序产品
启发式算法
数据处理方法
标签
意图识别
智能外呼机器人
数据处理装置