摘要
本发明公开了一种陆战无人装备的模拟训练方法、装置及设备,包括:创建多智能体无人装备的陆战对抗场景,定义陆战对抗场景中红方智能体和蓝方智能体的场景信息、观测空间、动作空间、胜负条件以及奖励函数;构建多智能体强化学习的网络训练框架,包括MAPPO网络以及QMIX网络,得到多智能体强化学习模型;其中,MAPPO网络用于提供即时反馈和策略调整的梯度信息;QMIX网络用于实现多智能体之间的协作和全局策略的评估;通过初始化和更新MAPPO网络以及QMIX网络的网络参数,对多智能体强化学习模型进行迭代训练,直到满足预设条件时停止训练,得到多智能体协作系统。
技术关键词
模拟训练方法
多智能体强化学习
混合网络
多智能体协作
超网络
强化学习模型
前馈神经网络
装备
策略
场景
参数
多层感知机
模拟训练设备
模拟训练装置
非线性
记忆
计算机程序产品
框架
处理器
系统为您推荐了相关专利信息
机器人导航方法
模型构建方法
邻居
节点特征
全局状态信息
多智能体强化学习
决策系统
隐私保护模块
策略
数据访问控制
多智能体强化学习
强化学习算法
评估指标体系
评估预测模型
样本
重型机械设备
动态监测系统
数字孪生模型
多智能体强化学习
实时数据