摘要
本申请公开了一种大语言模型的可解释性测试评估方法及系统,包括:获取待测试的大语言模型对应的应用场景以及评估样本文本,并将评估样本文本输入至大语言模型,获得大语言模型输出的第一文本类别;将评估样本文本输入至机器学习模型集中应用场景对应的机器学习模型,获得机器学习模型输出的第二文本类别;机器学习模型基于各应用场景对应的训练样本文本及其样本标签训练,并经过验证样本文本及其样本标签进行准确率验证后获得;基于第一文本类别与第二文本类别,计算大语言模型在可解释性测试评估指标上的评估结果。通过本申请,实现统一规范化大语言模型可解释性的量化评估,有效提升测试评估效率和准确性,并且具有较高的动态可扩展性。
技术关键词
机器学习模型
文本
大语言模型
样本
测试评估方法
频繁项集挖掘算法
频繁模式增长算法
场景
动作指令数据
测试评估系统
标签
计算机程序产品
体感指令
特征提取算法
处理器
随机森林模型
朴素贝叶斯
可读存储介质
存储计算机程序
指标
系统为您推荐了相关专利信息
语音识别文本
语音特征提取
自动语音识别方法
网络状态信息
编码模块
患者医疗数据
健康医疗数据
语义特征
编码
卷积特征