摘要
本申请一个或多个实施例提供一种大语言模型的评测方法、装置、设备和存储介质,该方法包括:获取样本集合;样本集合中的各个样本包括查询文本,以及与查询文本对应的生成答案文本和标准答案文本;生成答案文本为由第一大语言模型基于查询文本进行推理而生成的答案文本;基于样本集合中的各个样本生成提示文本,并将提示文本输入至少一个第二大语言模型,以由各个第二大语言模型在提示文本的引导下,根据提示文本中的评估规则,以及样本中的查询文本和标准答案文本,对样本中的生成答案文本进行正确性评估,并生成与样本对应的模型评估结果;基于与样本集合中的各个样本对应的模型评估结果,确定第一大语言模型的模型效果。
技术关键词
大语言模型
文本
样本
生成答案
评测方法
评测装置
处理器
指令
可读存储介质
计算机
电子设备
模块
存储器
系统为您推荐了相关专利信息
智能助理设备
人机交互模块
电源管理模块
电源切换单元
状态指示单元
采样方法
噪声样本
SMOTE算法
估计方法
种子