摘要
本发明提供了一种大规模无人集群博弈策略构建系统及方法,其中系统包括仿真环境模块以及基于仿真环境模块的集中式训练模块和分布式执行模块;仿真环境模块用于模拟大规模无人集群的动态交互环境;集中式训练模块采用集群博弈对抗强化学习算法MAPPO,并结合策略网络和价值网络,通过集中式训练实现大规模无人集群的策略优化;分布式执行模块将集中式训练模块生成的策略应用于大规模无人集群中,让大规模无人集群中的每个智能体独立执行策略,并基于自身的局部观测信息独立选择动作分布。本发明能够应对大规模场景中状态空间维度过高导致的维度灾难,并弥补现有仿真系统在真实任务场景建模方面的不足。
技术关键词
仿真环境
构建系统
强化学习算法
模块
大规模无人机
全局状态信息
网络
无人船集群
仿真数据
仿真系统
并行计算技术
生成动作
仿真场景
策略更新
动态
无人车
决策
系统为您推荐了相关专利信息
终端机
后端数据处理系统
设备外壳
定位框体
数据库管理系统
虚拟对象
图形用户界面
双重认证
三维虚拟模型
设备认证
智能调控
充电方法
智能充电系统
充电时间控制
充电枪线
环保管理系统
光照强度传感器
数据采集频率
检测传感器
机器学习模型训练