摘要
本发明公开了一种基于强化学习的飞行特情任务训练质量提升方法及系统,方法包括以下步骤:S1:基于目标飞机特情任务,构建飞行动力学模型、特情任务模型,建立强化学习环境。基于飞行安全操作要求建立奖励函数。S2:建立混合Actor‑Critic网络,并使用策略分离近端策略优化(Actor‑Separated Proximal Policy Optimization,ASPPO)算法训练特情处置决策网络,得到最优控制智能体。S3:基于最优控制智能体,生成多组动作序列集,并分析序列集中最大频繁动作序列,识别出操作动作偏时、动作多余、动作遗漏、动作错序的问题。
技术关键词
强化学习环境
动作策略
飞行动力学模型
频繁序列模式
多层感知网络
决策
飞机
算法
元素
识别模块
提升系统
参数
数据
分支
因子
系统为您推荐了相关专利信息
建筑群
自动布局方法
深度确定性策略梯度
灰度共生矩阵
形态
强化学习模型
数据预取方法
内存
数据预取技术
计算机
异常检测系统
深度学习模型
检测网络攻击
特征选择技术
网络流量数据
分布式强化学习
体机器人
神经网络参数
协同控制方法
采样模块