摘要
本公开提供了一种基于行为树的多智能体黑盒策略解析方法及系统,涉及智能体技术领域,包括:基于观测数据集,通过多智能体强化学习算法,学习环境观测数据和执行动作之间的规则映射关系,得到专家黑盒策略模型;对环境观测数据进行特征蒸馏,建立由蒸馏后的特征向量及对应的执行动作组成的轨迹数据集,拟合决策树;递归遍历决策树的节点,生成行为树每个节点的特征条件和执行状态,得到条件映射集;对当前输入的环境观测数据进行黑盒策略的解析,得到最终的映射路径、状态序列及执行动作,强化学习的奖励函数中引入决策树拟合度奖励项;本发明整合神经网络、决策树和行为树的优势,在保持模型性能的前提下实现对黑盒模型决策过程的可解释分析。
技术关键词
解析方法
多智能体强化学习
策略
非暂态计算机可读存储介质
节点
数据
蒸馏
特征选择
智能体技术
线性变换矩阵
神经网络参数
黑盒模型
电子设备
处理器
解析系统
存储器
轨迹
计算机程序产品
算法
序列
系统为您推荐了相关专利信息
服务器运行日志
分布式服务器节点
时序特征
资源分配策略
调度系统
识别异常数据
动态规则引擎
机器学习算法
可视化工具
告警机制
强化学习模型
散热片单元
故障智能诊断方法
高斯混合模型
共振频率