摘要
本申请一个或多个实施例提供一种大语言模型的评测方法、装置、设备和存储介质,该方法包括:获取包含与目标任务对应的提示、由第一大语言模型基于提示执行目标任务得到的第一执行结果、由第二大语言模型基于提示执行目标任务得到的第二执行结果的样本;获取由标注方根据第一执行结果和第二执行结果的优劣比较结果,针对样本标注的标注评测结论;将样本输入至少一个第三大语言模型,以由各个第三大语言模型基于样本,对第一执行结果和第二执行结果进行优劣比较,并根据优劣比较结果生成与样本对应的模型评测结论;将标注评测结论和模型评测结论汇总为与样本对应的总评测结论;其中,评测结论用于指示第一执行结果和第二执行结果的优劣比较结果。
技术关键词
大语言模型
样本
答案
评测方法
文本
指标
评测装置
处理器
忠诚度
指令
可读存储介质
模块
计算机
电子设备
存储器
逻辑
系统为您推荐了相关专利信息
图像分割网络
深度学习图像
缺陷检测方法
输出特征
图像处理方法
RFID读写模块
物资盘点方法
面单
摄像模块
可执行程序代码
类别预测方法
融合特征
融合分类器
大数据
注意力机制
快速成像方法
回波
正则化参数
在线
Tikhonov正则化