摘要
本发明公开了一种基于改进QMIX算法的无人机协同博弈行为决策方法,首先根据需求对决策行为中的各状态参数进行初始化设置,获取各无人机智能体的局部观测向量信息,并基于无人机的特征提取策略网络,进行特征提取和处理,之后基于处理后的无人机特征信息确定无人机联合动作价值,基于各无人机智能体的动作价值确定各无人机的动作,实现无人机协同博弈的行为决策。本发明结合了自注意力机制的信息融合和传递算法结合环境中其他智能体的观测信息,斌考虑了智能体在当前环境的观测,以及智能体进行个体观测和全局状态的关系的探索,使得每个智能体对于全局奖励的贡献得到了合理的评估,能有效提升算法的效率和稳定性。
技术关键词
无人机协同
矩阵
决策方法
协作信息
长短期记忆网络
构建无人机
注意力机制
计算机可存储介质
算法
更新网络参数
编码
多层次
决策系统
处理器
网络模块
计算机设备
系统为您推荐了相关专利信息
均衡器误差
信号均衡方法
复用传输系统
接收端
矩阵
超薄陶瓷砖
配料优化方法
实时数据采集
神经网络模型
测试环境参数