摘要
本申请一个或多个实施例提供一种大语言模型的评测方法、装置、设备和存储介质,该方法包括:获取样本集合;样本包括查询文本、对应的生成答案文本和标准答案文本;生成答案文本由第一大语言模型基于查询文本进行推理而生成;基于各个样本生成提示文本,并将提示文本输入至少一个第二大语言模型,以由各个第二大语言模型在提示文本的引导下,对样本进行正确性评估,并生成与样本对应的模型评估结果;确定与各个样本对应的内容标签,并确定与内容标签对应的标注方,以触发由标注方根据与样本对应的模型评估结果,对样本进行正确性评估,并根据评估结果对样本进行标注;基于与各个样本对应的模型评估结果和标注结果,确定第一大语言模型的模型效果。
技术关键词
大语言模型
样本
文本
生成答案
评测方法
标签
评测装置
处理器
指令
可读存储介质
模块
关键词
计算机
电子设备
实体
存储器