摘要
本申请涉及一种基于值分布的多智能体协同控制方法、装置、设备和介质,方法包括:构建每个智能体的初始价值网络和多个智能体的初始分布混合网络;基于各智能体的采样数据,对初始分布混合网络和各智能体的价值网络进行训练,通过最小化全局价值分布的损失函数优化初始分布混合网络以及各智能体的价值网络的网络参数,并满足全局价值分布的期望最大、每个智能体的确定性价值最大的约束关系,得到训练好的各智能体的价值网络;根据自身的观测及训练好的价值网络,各智能体执行各自的最优动作。本申请通过在训练过程中综合考虑全局观测、在执行过程中智能体仅利用局部观测做出最优决策方法。
技术关键词
混合网络
交通信号灯控制
损失函数优化
协同控制方法
协同控制装置
场景
参数
红绿灯
深度神经网络
模块
决策方法
数据
红灯
网络架构
团队
处理器
计算机设备
系统为您推荐了相关专利信息
多尺度特征
特征提取模块
抑制算法
无人机机器视觉
定位单元
注塑工艺
混合优化算法
随机噪声
XGBoost模型
网格
定价方法
温度预测模型
投资者
天气
损失函数优化
图像分类模型
聚类特征
船舶
特征提取单元
分类方法