摘要
公开了针对语言模型的性能评估的方法和装置、设备、介质和产品,涉及数据处理技术、大模型技术、大语言模型技术领域。该方法包括针对每个问题,通过语言模型获取问题的多个预测答案,该多个预测答案各自具有不同的答案形式。该方法还包括获取针对问题的多个真值答案,该多个真值答案各自与不同的答案源相对应。该方法还包括基于多个预测答案与多个真值答案之间的比较,获取多个比较结果,该多个比较结果指示多个预测答案与多个真值答案之间的差异性。该方法还包括确定与多个比较结果相对应的多个比较得分,并且基于多个比较得分来确定语言模型的性能得分,该性能得分指示语言模型的问答性能。如此,能够改进性能评估的覆盖面,并且促进模型调优。
技术关键词
答案
语句
结构化查询语言
统一资源定位
格式化
处理器
机器可读存储介质
大语言模型
数据处理技术
字段
计算机程序产品
指派
模块
指令
度量
存储器
电子设备