摘要
本发明涉及多智能体强化学习领域,其公开了一种基于因果推理和分层注意力机制的强化学习方法,弥补传统多智能体系统中角色分配不准确和协作效率低下的缺陷,提升整体协作性能。该方法通过构建因果感知的多智能体协作模型,首先利用结构因果模型构建动态因果图,利用优化变分分布估计器计算智能体间的因果影响力向量;然后基于因果影响力向量生成因果引导的分层注意力权重;接着通过跨智能体注意力共享机制实现协作信息传递,利用跨层融合机制生成增强特征表示;进一步基于全局因果贡献度和局部因果贡献度设计因果感知角色选择器,实现智能体角色的动态分配;最后通过因果影响内在奖励机制进行模型训练优化。
技术关键词
分层注意力
强化学习方法
多智能体系统
层级
机制
加权特征
门控循环单元
协作模型
动态
多智能体强化学习
多智能体协作
参数
协作信息
梯度下降法
生成智能
多层感知机
时序
编码器
强度
系统为您推荐了相关专利信息
分子属性预测方法
属性预测模型
关系网络
分子结构信息
节点
激光雷达点云
拼接方法
ICP算法
点云配准算法
点云密度
电学性能测试方法
短时傅立叶变换
性能测试平台
电路
时间变化特征
信道接入方法
LSTM模型
免授权频段
信道状态信息值
脉冲特征