多智能体强化学习模型训练方法、学习方法及装置

正文

推荐专利

申请号：CN202510627093

申请日期：2025-05-15

公开号：CN120654767A

公开日期：2025-09-16

类型：发明专利

摘要

本公开实施例提供了一种多智能体强化学习模型训练方法、学习方法及装置，方法包括：对多智能体强化学习模型进行多轮迭代训练，在每轮迭代训练过程中，多次执行如下动作选取步骤：将本次全局状态矩阵及本次观测矩阵输入智能体网络进行注意力输出分析并进行智能体Q值计算，得到每个智能体的Q值数据，每个可行动作的Q值用于表示每个可行动作的动作价值；将每个智能体的Q值数据输入混合网络进行加权混合处理，得到联合Q值数据，联合Q值数据用于表示多个智能体在本次全局状态矩阵下采取联合动作时的动作价值；基于联合Q值数据，采用损失函数进行本次网络参数更新。本公开提高了多智能体强化学习算法的学习准确率及效率。

技术关键词

多智能体强化学习注意力机制矩阵数据门控循环单元表达式混合网络模型训练方法学习方法强化学习模型强化学习算法参数元素轨迹网络结构样本输入模块

系统为您推荐了相关专利信息

一种基于电磁环境数据及三维地图的无人机航线规划方法及系统

电磁辐射源电磁环境数据三维实景模型无人机航线规划多普勒

基于解析突触动态缩放平衡器的多模态深度伪造持续检测方法

判别特征多模态深度缩放模块平衡器音频特征

一种基于多模态数据融合的化塑行情分析方法

多模态数据融合语义向量分析方法多模态融合技术文本数据提取

高光谱图像域适应变化检测方法、设备及软件产品

变化检测方法通道注意力机制二维卷积神经网络变化检测网络图像

基于数据分析的多参数电测仪表自诊断系统

电测仪表诊断系统多参数神经网络算法卷积神经网络模型

多智能体强化学习模型训练方法、学习方法及装置

站点导航

APP 下载