摘要
本发明实施例提供了一种模型评估方法、装置、电子设备及存储介质,电子设备可以获取评估测试数据集;基于评估测试数据集,通过预设评估方式,对待评估模型进行评估,得到评估结果,其中,预设评估方式包括一致性评估方式、理解能力评估方式以及知识掌握程度评估方式中的至少一种;一致性评估方式用于评估待评估模型基于不同提示词,对同一测试数据输出的预测答案之间的一致性,理解能力评估方式用于评估待评估模型对多个改写测试数据输出的预测答案的正确率,知识掌握程度评估方式用于评估待评估模型对测试数据对应的深入测试数据输出的预测答案的正确率。这样,可以对大语言模型的一致性、理解能力以及知识掌握程度进行评估。
技术关键词
测试题
答案
大语言模型
模型评估方法
生成指令
正确率
多项选择题
作答方式
生成装置
多模态
电子设备
通信接口
可读存储介质
存储器
数据
处理器
信息检索
评估装置
自然语言
同义词
系统为您推荐了相关专利信息
固沙抑尘剂
耦合特征
工艺特征
温度控制曲线
控制系统
视频流
分段
容器
服务端
非易失性计算机存储介质
高分辨成像方法
大语言模型
穿墙雷达
适配器
矩阵