摘要
本发明公开了一种协作与竞争场景下的可泛化智能体生成方法,包括:构建多样性策略池;选取一个子环境,提取团队智能体的策略网络参数,并赋值给学习者;采用多智能体强化学习算法对学习者的策略网络参数进行优化更新,获得学习者的第一策略网络参数;构建回合记忆库,对队友和对手的观测数据进行视角对齐转换;在优化更新过程中,基于学习者观测特征,从回合记忆库中检索与学习者最匹配的观测数据;对检索到的观测数据进行位置编码处理后,基于超网络生成学习者的第二策略网络参数;结合第一策略网络参数和第二策略网络参数,获得优化后的学习者策略网络参数。本发明智能体的设定能够在当前环境下与未知的队友和对手进行有效的协作与竞争。
技术关键词
多智能体强化学习
策略
参数更新模块
生成方法
记忆
超网络
视角
数据
场景
团队
算法
编码器
生成系统
转换单元
处理器
可读存储介质
系统为您推荐了相关专利信息
网络攻击路径
大语言模型
推演方法
实体关系抽取模型
图谱
协同防护系统
协同防护方法
数字签名验证
分发模块
动态授权机制
电子器件
因子
功耗检测方法
功耗检测设备
通信器件