摘要
本发明提出一种面向混合博弈稀疏奖励的分布式多智能体强化学习方法,解决动作空间庞大、奖励稀疏及拟人性差的问题。通过多服务器部署游戏环境、AI服务器和强化学习训练器,搭建分布式训练框架,实现并行数据采集与梯度同步,提升训练效率。将复合动作拆分为移动、射门等独立子集,采用动作解耦PPO算法优化策略更新。基于生成对抗模仿学习训练判别器,生成模仿奖励并融合至总奖励,增强智能体拟人性。定义球员风格类别,定制差异化奖励函数,驱动智能体学习位置专属行为。构建包含自身、队友/敌人及全局状态的三级特征空间,利用交叉注意力机制捕获状态关联性,为工业级游戏AI的多智能体协作任务提供兼顾竞技强度与拟人性的高效解决方案。
技术关键词
分布式多智能体
强化学习方法
交叉注意力机制
人类玩家
分布式训练
策略更新
AI服务器
球员
更新模型参数
游戏环境
生成动作
风格
智能体模型
训练器
网络结构
球类游戏
动作交互
系统为您推荐了相关专利信息
注意力神经网络
数据修复方法
交叉注意力机制
海洋资料浮标
Sigmoid函数
分类预测模型
样本
分类方法
图像数据编码模块
特征提取模块
联合优化方法
波束成形器
系统吞吐量最大化
编码器
OFDM系统