摘要
本公开实施例提供了一种多智能体强化学习模型训练方法、学习方法及装置,方法包括:对多智能体强化学习模型进行多轮迭代训练,在每轮迭代训练过程中,多次执行如下动作选取步骤:将本次全局状态矩阵及本次观测矩阵输入智能体网络进行注意力输出分析并进行智能体Q值计算,得到每个智能体的Q值数据,每个可行动作的Q值用于表示每个可行动作的动作价值;将每个智能体的Q值数据输入混合网络进行加权混合处理,得到联合Q值数据,联合Q值数据用于表示多个智能体在本次全局状态矩阵下采取联合动作时的动作价值;基于联合Q值数据,采用损失函数进行本次网络参数更新。本公开提高了多智能体强化学习算法的学习准确率及效率。
技术关键词
多智能体强化学习
注意力机制
矩阵
数据
门控循环单元
表达式
混合网络
模型训练方法
学习方法
强化学习模型
强化学习算法
参数
元素
轨迹
网络结构
样本
输入模块
系统为您推荐了相关专利信息
电磁辐射源
电磁环境数据
三维实景模型
无人机航线规划
多普勒
多模态数据融合
语义向量
分析方法
多模态融合技术
文本数据提取
变化检测方法
通道注意力机制
二维卷积神经网络
变化检测网络
图像
电测仪表
诊断系统
多参数
神经网络算法
卷积神经网络模型