摘要
本发明公开了一种基于行为体行为特征相似性的多智能体强化学习协作方法,在该模型中,智能体之间的相互作用被建立为一个图神经网络。具体来说,提出了皮尔逊相关系数来计算主体历史轨迹的相似性,用于建模图神经网络中边的权值,作为确定其行为共同认知的一种手段;此外,利用结构化的状态信息互补模块,该模块主要依赖于基于自注意的变压器‑编码器架构,融合了其他智能体的观察和行动,以增强智能体的策略网络的表示能力。该模型有效地增强主体之间的协作行为,提高协同模型的训练效率。
技术关键词
全局状态信息
协作方法
模块
决策
编码器架构
皮尔逊相关系数
智能体模型
轨迹
编码特征
超网络
注意力机制
节点
参数
矩阵
表达式
变压器
系统为您推荐了相关专利信息
数据分流方法
机票预订平台
数据分流设备
数据分流系统
营销活动信息
SM2算法
网络服务方法
SM4算法
解密
数字签名算法
信道估计信息
解码模块
信道估计方法
编码模块
深度残差学习网络
铁路牵引供电系统
数字孪生模型
机车控制器
电磁暂态仿真
仿真方法
节点
同态加密算法
镜像
计算机程序指令
数据处理方法