摘要
本发明涉及多智能体控制技术领域,尤其是涉及一种多智能体博弈对抗的异构任务优化方法及系统。方法,包括获取博弈双方智能体可观测信息,基于获取的博弈双方智能体可观测信息,利用actor‑critic网络结构生成当前环境下的状态集合,将经验缓存区中的数据顺序打乱并重新编号,并抽取数据结合认知理论对actor‑critic网络结构进行训练。本发明通过先获取博弈双方智能体可观测信息,进而将状态观测数据传递给中心控制器,训练完后智能体就可以不再与中心控制器通信,可以基于自己的局部观测状态通过自己的动作策略函数来产生最优动作。
技术关键词
网络结构
智能体模型
动作策略
异构
中心控制器
智能体控制技术
可读存储介质
数据存储方式
对抗系统
模型训练模块
理论
终端设备
数据获取模块
处理器
指令
误差
系统为您推荐了相关专利信息
母线负荷预测方法
负荷预测模型
训练样本集
注意力机制
序列
巷道掘进面
多模态特征
交叉注意力机制
异构
风险
检测识别方法
识别菜品
中餐
多尺度
卷积神经网络结构
数据中心模块
样本
光学遥感影像
生态环境监测
无人机数据