摘要
本发明提出了一种基于强化学习的综合化航空电子系统可调度分析方法,包括:根据综合化航空电子系统可调度问题设计马尔可夫决策过程,构建虚拟环境;将基于价值的强化学习算法与多头注意力机制进行结合,通过智能体与虚拟环境进行交互,学习得到最优状态‑动作值函数;当智能体与环境进行交互时,使用最优状态‑动作值函数,获得当前状态下每个可行动作的价值;选择具有最高价值的可行动作,并执行该可行动作;获取下一个状态和奖励,并将奖励累加;或者将基于策略的强化学习算法与多头注意力机制进行结合,学习得到最优策略函数;使用最优策略函数获得若干预选动作,执行得分最高的候选动作序列。
技术关键词
综合化航空电子系统
调度分析方法
多头注意力机制
强化学习算法
分区
策略
决策
核心
周期
更新网络参数
模块
超参数
序列
解码器
编码器
任务调度
系统为您推荐了相关专利信息
智能分拣方法
废旧塑料瓶
融合特征
点云
三维视觉传感器
皮肤病变分割方法
表达式
多头注意力机制
图像灰度共生矩阵
前馈神经网络
数据接口系统
数据访问系统
医疗数据安全
医疗数据管理
分区
特征融合方法
节点特征
多模态
基因表达数据
矩阵
病理图像分类方法
多层注意力
标签
模块
多层感知机