摘要
本发明公开了多智能体协作的互补注意力信息处理及奖励引导方法,涉及多智能体强化学习技术领域,包括以下步骤:对智能体的观测信息进行再分类,分为环境信息、内部状态信息和外部状态信息;本发明中,在信息处理与决策能力上,对智能体观测信息再分类并采用注意力互补机制,提高了信息处理效率与策略网络决策性能;在训练效果方面,目标网络融入勤奋度奖励机制,改善了训练初期注意力网络的低效学习问题,提升了智能体协作意愿;本方法在星际争霸多智能体挑战场景中,与QM IX、COMA及QPLEX算法对比,在同构场景下策略收敛效率更优,且消融实验证明了互补注意力网络和勤奋度奖励机制结合的必要性,二者协同提升了注意力网络的训练稳定性和最终性能。
技术关键词
信息处理
多智能体协作
多智能体强化学习技术
注意力机制
环境状态信息
协作意愿
更新网络参数
互补机制
场景
验证算法
决策
策略
有效性
阶段
分段
系统为您推荐了相关专利信息
注意力机制
深度学习网络模型
危险品
特征提取网络
采样模块
多维度预警方法
深度神经网络模型
时空注意力机制
语义特征
风险
多头注意力机制
冷启动策略
车辆
推荐方法
数据嵌入