摘要
本申请公开了多智能体路径规划方法、装置、设备以及计算机存储介质,所述方法包括:构建包括子任务网络、执行策略网络以及多重评论家网络的多智能体路径规划模型;通过子任务网络基于当前多智能体的全局状态,生成在固定时间跨度内多个智能体的子任务目标;根据子任务目标通过子任务网络,控制多个智能体执行预设步数的动作序列;根据预设步数的执行结果计算奖励值;基于环境奖励和内在奖励,更新多重评论家网络、策略网络的参数及多重评论家网络中的各评论家网络的参数;通过状态转移策略梯度模块根据预设步数执行动作后的多智能体的新状态与子任务目标状态的关系更新子任务网络的参数;重复上述步骤至训练收敛,得到多智能体路径规划目标模型。
技术关键词
网络
策略
路径规划装置
计算机存储介质
参数
路径规划设备
存储计算机程序
梯度算法
模块
关系
序列
决策
分层
控制单元
处理器
误差
周期
度量
系统为您推荐了相关专利信息
分布式优化算法
数据采集模块
数据清洗工具
超参数
分布式体系结构
区域检测方法
胃癌
多尺度特征融合
区域检测装置
图像