一种评估大语言模型性能的方法以及装置

正文

推荐专利

一种评估大语言模型性能的方法以及装置

申请号：CN202510802008

申请日期：2025-06-16

公开号：CN120688633A

公开日期：2025-09-23

类型：发明专利

摘要

本说明书实施例提供了一种评估大语言模型性能的方法以及装置，其中所述评估大语言模型性能的方法包括：获取多个测试数据集；多个测试数据集中的一个测试数据集与一个测试维度对应；测试维度至少包括上下文感知维度以及动态调整能力维度；将多个测试数据集输入至第一大语言模型，得到第一大语言模型输出的回答信息；第一大语言模型为待测试大语言模型；获取与各个测试维度对应的提示词信息；提示词信息包括任务信息、评判标准以及输出标准；提示词信息用于提示第二大语言模型对第一大语言模型输出的回答信息进行评估；将提示词信息以及回答信息输入至第二大语言模型，得到第二大语言模型输出的基于各个测试维度对第一大语言模型的评估结果。

技术关键词

大语言模型计算机可执行指令安抚处理器多轮对话动态计算机程序产品基准可读存储介质模块存储器数据记忆

系统为您推荐了相关专利信息

一种交换机设备的批量测试方法、系统、设备及介质

辅测设备交换机设备组网设备序列号端口

电力系统测试方法、装置、电子设备、存储介质及程序

电力系统模型电力硬件设备电力系统风险评估检测工具测试方法

基于多文档的知识资产提取沉淀的电力项目文档处理方法、装置、计算机设备和存储介质

项目电力关键字计算机设备频率

资源调度方法及相关设备

资源调度方法内存电子设备参数资源调度装置

一种用于发电机励磁系统的故障诊断方法及系统

发电机励磁系统故障诊断模型粒子群优化算法故障诊断方法参数

一种评估大语言模型性能的方法以及装置

站点导航

APP 下载