摘要
本发明公开了一种基于分层评价图注意力网络的多智能体强化学习方法,状态特征编码器、图注意力网络及分层批评网络,通过智能体i与环境交互以获取观测值;所述状态特征编码器将观测值作为输入生成隐藏的状态表示;所述图注意力网络通过嵌入向量与关系图模型来计算节点和边缘特征;通过所述分层批评网络计算所有个体和集群的权重,且通过综合影响与全局信息,得到状态值;通过集中式评论家输出的个体值函数被前馈到去中心化参与者网络,其中智能体i接收自己的观察,智能体i并根据其学习到的策略独立执行动作,以执行直接影响环境的特定任。根据本发明,在合作竞争环境下智能体博弈策略具有较好的应用前景,具有策略性能好、学习更稳定、可解释性强等优势。
技术关键词
智能体强化学习方法
网络
分层
编码器
集群
生成智能
调度器组件
节点特征
关系
LSTM模型
策略
注意力机制
异质
异构
项目
模块
系统为您推荐了相关专利信息
实时视频图像
跟踪特征
末端执行器
机器人手术
通信控制方法
浪涌防护结构
网络变压器
结构件底座
电路板
RJ45电口模块
智能电视系统
人工智能算法
模式识别模型
语音
网络连接状态
硬件木马检测方法
传感器电路
训练样本集
感兴趣区域图像
图像处理
智能导诊方法
多模态特征
特征提取网络
语义特征
疾病