摘要
本申请公开了基于多裁判模型的大模型评测方法、装置、介质及设备,该方法包括:获取优选裁判模型对应的评分数据集;根据评分数据集,确定使优选裁判模型的评分一致性小于预设阈值的目标答案;针对目标答案,引入目标数量的新增优选裁判模型进行评分,直至新增后优选裁判模型的评分一致性大于或者等于预设阈值;基于新增后优选裁判模型的新增后评分数据集,确定新增后优选裁判模型对应的权重和待评测大模型的优选评分数据集;根据优选评分数据集和各个新增后裁判模型权重,计算得到待评测大模型的综合评估值;如此可剔除误差较大的评分数据,调整模型权重确保评测结果自动适应裁判模型的表现波动,提高整体综合评估值的准确性。
技术关键词
模型评测方法
答案
数据
评测装置
误差
处理器
电子设备
参数
模块
队列
介质
指令
存储器
计算机