摘要
本发明提供了一种基于课程强化学习的空战智能决策方法、装置、设备及介质,涉及强化学习领域。包括:基于多组初始状态数据确定对应的战斗优势指标;基于战斗优势指标对初始状态数据进行排序后存入难度引导的状态池;从难度引导的状态池中按照难度递增的方式更新渐进式滑动缓冲区中的初始状态数据;动态制定中间任务目标,直至为制定最终任务目标;从渐进式滑动缓冲区中采样当前初始状态数据,将当前初始状态数据输入SAC模型的策略网络得到当前动作;至少基于中间任务目标、当前动作和当前初始状态数据,对SAC模型进行训练,直至达到最终任务目标得到训练完毕的SAC模型以用于做出智能决策,提高了飞机在复杂环境中的决策能力与适应能力。
技术关键词
深度强化学习
智能决策方法
飞机
数据
策略
网络
仿真环境
指标
智能决策装置
输出模块
动能
导弹
模型训练模块
武器
可读存储介质
动态
处理器
场景
雷达
系统为您推荐了相关专利信息
模糊控制模块
自主水下机器人
姿态控制系统
传感器集成模块
电量监测模块
远程监控管理系统
停车场管理服务器
地磁传感器
超声波传感器
停车位
系统健康状态评估方法
信息熵
机器学习算法模型
LSTM模型
电芯
数据传输方法
接收方
生成数据库
解密
数据传输装置