摘要
本发明公开了一种基于可解释强化学习的空中对抗博弈方法,属于无人机空中对抗技术领域。针对深度强化学习模型可解性较差,无法大面积推广到无人机模拟对抗领域,以往深度强化学习可解释方法面临种种局限的现状,本发明方法提出了一种结合关键决策步筛选、多价值网络以及价值网络时域分解的深度强化学习可解释方法。本发明方法通过关键决策步筛选求出无人机博弈对局中对结局影响较大的关键决策,减小冗余信息的产生;通过多价值网络技术拟合奖励函数中不同的任务要素带来的累计收益,直观展示关键决策在不同任务要素下的收益;通过价值网络时域分解直观展示关键在未来的预期收益,从而多方面、多维度地解释模型决策。
技术关键词
决策
网络深度
博弈方法
无人机角度
深度强化学习模型
矩阵
无人机高度
回传算法
对抗技术
轨迹
网络技术
方向舵
指标
度量
连线
坐标
系统为您推荐了相关专利信息
高压断路器
智能管控方法
电气
决策
风险预测模型
速率
在线监测装置
机器学习算法
支持向量机算法
因子
决策方法
量子隧穿效应
量子退火算法
量子蒙特卡洛方法
通道
多模态信息融合
信息处理单元
机器人控制模块
熔池形貌
三维轮廓信息
风险
子模块
企业内部业务系统
实时数据处理技术
均方误差指标