摘要
本申请涉及一种基于大语言模型增强的可解释强化学习决策系统及方法。系统包括:白盒策略模块,含均采用软决策树构建的上层和下层策略模型,上层根据对抗态势数据和预设奖励函数决策输出上层子目标,下层依据上层子目标和对抗态势数据决策输出无人机控制量及行动轨迹数据;自然语言解释模块,利用决策行为解释大模型处理上、下层策略模型的软决策树参数、运算过程数据、预设奖励函数及无人机行动轨迹数据,输出行为解释内容;策略优化模块,利用决策行为优化大模型分析行为解释内容及无人机行动轨迹数据,结合交互数据提供奖励函数修改建议和失败轨迹修复方案。采用本系统可提高无人机对抗决策的智能性、实时性和可解释性。
技术关键词
策略
决策系统
大语言模型
轨迹
自然语言
计数器
白盒
生成无人机
模块
参数
意图
节点
数据变化趋势
逻辑
决策方法
模式
矩阵
系统为您推荐了相关专利信息
知识蒸馏方法
特征提取模块
教师
检测头
调控策略
电化学储能电站
优化运行方法
液冷系统
电池仓
调控空调
在线轨迹规划方法
表达式
制导算法
轨迹算法
推力