摘要
本发明公开了一种基于时空特征与多智能体强化学习的多机智能博弈方法,属于多无人机智能博弈对抗决策领域。本发明针对复杂博弈环境,通过先前训练的降维网络,整合无人机状态信息、无人机动作信息以及环境信息等多方面数据,有助于后续的时空特征的提取;同时利用图卷积网路和循环神经网络提取时空特征进行学习,使得神经网络可以做出当前状态下每个无人机更加合理的动作策略,帮助模型更好的得到最优的决策;设计针对复杂博弈环境的奖励函数,使得神经网络的训练方向更加合理,并使得最终训练好的模型更具有可行性,有效提高网络训练效率。
技术关键词
全局状态信息
博弈方法
强化学习网络
智能博弈对抗
多智能体强化学习
偏转角
速度
卷积模块
无人机高度
无人机姿态
强化学习算法
支路
动作策略
多无人机
仿真软件
方向舵
决策
解码
系统为您推荐了相关专利信息
建筑维护系统
建筑排水系统
深度Q网络
滑动窗口算法
时间序列预测模型
统一资源调度方法
多智能体强化学习
模拟器
资源调度策略
资源调度装置
多智能体强化学习
监测风电机组
强化学习算法
多智能体系统
功能模块
策略更新
滑动窗口
多智能体强化学习技术
存储库
多智能体系统