摘要
本发明涉及多智能体的控制,提供了一种基于深度强化学习的多智能体合作学习方法,其以包含队友信息的Q值为第一Q值、以不包含队友信息的Q值为第二Q值,通过两个Q值的差异,量化队友信息对当前决策的实际贡献;并引入Q值解耦,将Q值分解为状态值和动作优势;将两个Q值差异,分为用于评估协作对全局认知提升幅度的状态修正值和用于衡量协作对具体决策修正强度的动作修正值;并以此为基础,设计了通过状态修正值和动作修正值,对Q值进行动态调整的机制,因此,该方法能通过队友信息主动探索对团队有利的动作,而不是被动等待全局奖励更新,更好适应环境变化,适用于游戏、无人机编队等多智能体协作任务。
技术关键词
学习方法
决策
多层感知机
策略
超网络
深度神经网络
深度强化学习算法
无人机编队
动态
注意力
样本
编码
矩阵
因子
特征值
噪声
阶段
定义