摘要
本公开关于大语言模型的规划能力的评估方法、装置、电子设备、存储介质和计算机程序产品,包括:将多个样本输入大语言模型,获得每个样本在每个层的表示向量并计算该层的提取率和探测准确率;计算每个样本所包含的每种类型的组成部分的信息流分数并评估该种类型的组成部分作为信息来源的可能性;获取屏蔽每个样本所包含的目标执行操作的操作结果之后的屏蔽预测结果以及屏蔽之前的未屏蔽预测结果并评估目标执行操作对输出结果的影响力。这样,通过计算模型的提取率、探测准确率、信息流分数和历史步骤的因果性影响,为模型在全局可观测的规划任务中具备短期的前瞻性未来决策能力的可解释性提供了理论支持。
技术关键词
大语言模型
样本
规划
计算机程序产品
参数
分词
电子设备
码头
探针
处理器
可读存储介质
解码
评估装置
模块
文本
指令
标签
比率
决策
系统为您推荐了相关专利信息
无人机实时飞行
卷积神经网络模型
图像边缘特征
场景分类
动态
深度学习识别方法
冻融循环次数
损伤特征
残差神经网络
扫描电子显微镜
国土调查
数据实时处理系统
效能
风险
多模态数据融合