摘要
本发明涉及机器学习技术领域,涉及一种用于多智能体系统的联合决策模型训练方法、设备及存储介质;其中,一种用于多智能体系统的联合决策模型训练方法包括获取多个智能体的局部观测数据;构建联合决策模型的网络结构;利用训练数据集对联合决策模型的网络进行迭代训练直到达到训练停止条件;在每次训练中,执行以下步骤:联合决策模型分别根据各智能体的局部观测数据推导出各智能体的共识分布;通过对比学习对齐多智能体系统中多个智能体的共识分布,计算联合决策模型的损失函数;根据损失函数更新联合决策模型的网络参数,得到最终的联合决策模型。本发明能够提升智能体在合作任务中的性能,提升多智能体合作系统决策的准确性。
技术关键词
决策模型训练方法
多智能体系统
数据
处理器
网络结构
机器学习技术
可读存储介质
时序
电子设备
参数
存储器
在线
计算机
策略
表达式
系统为您推荐了相关专利信息
核电站
协同系统
通信子系统
智能化消防
火灾自动报警系统
卷积神经网络模型
图像传感器数据
调焦方法
环境光传感器数据
智能眼镜
城市环境监测方法
感知机器人
图像采集节点
图像采集控制
环境监测数据
效能
线性规划算法
军事运筹技术
度量
作战仿真系统