摘要
本方案公开了一种智能体集群路径规划模型的训练方法和装置,该方法包括:构建智能体在当前时间步的第一状态矩阵,将第一状态矩阵输入初始强化学习模型,预测各个智能体在下一个时间步的第二动作信息;基于第二状态矩阵、第一状态矩阵确定智能体集群执行本次任务的奖励得分;构建由目标四元组组成的时间序列数据,将时间序列数据输入各个局部Q网络中,生成局部Q值;将局部Q值通过混合Q网络组合成全局Q值;使用更新后的局部Q网络和混合Q网络继续进行训练,得到智能体集群路径规划模型。本方案的混合Q网络具备时序建模和注意力权重分配能力,各智能体独立决策,实现去中心化控制;采用时间序列数据学习时序依赖,使路径生成更具灵活性。
技术关键词
强化学习模型
集群
矩阵
网络
序列
规划
数据
多头注意力机制
门控循环单元
山地环境
仿真平台
时序
训练装置
电子设备
时间段
程序
处理器
指令
输入模块
系统为您推荐了相关专利信息
网络转接系统
调度系统
电梯主控系统
配餐方法
高层建筑
开关状态识别方法
电网接线图
混合网络模型
检测点
电气
大脑认知状态分类
注意力
融合特征
信号
功能近红外光谱
超宽带定位装置
动态知识图谱
信息系统工程
拓扑网络
网络设备