摘要
本说明书实施例提供了一种评估大语言模型性能的方法以及装置,其中所述评估大语言模型性能的方法包括:获取多个测试数据集;多个测试数据集中的一个测试数据集与一个测试维度对应;测试维度至少包括上下文感知维度以及动态调整能力维度;将多个测试数据集输入至第一大语言模型,得到第一大语言模型输出的回答信息;第一大语言模型为待测试大语言模型;获取与各个测试维度对应的提示词信息;提示词信息包括任务信息、评判标准以及输出标准;提示词信息用于提示第二大语言模型对第一大语言模型输出的回答信息进行评估;将提示词信息以及回答信息输入至第二大语言模型,得到第二大语言模型输出的基于各个测试维度对第一大语言模型的评估结果。
技术关键词
大语言模型
计算机可执行指令
安抚
处理器
多轮对话
动态
计算机程序产品
基准
可读存储介质
模块
存储器
数据
记忆
系统为您推荐了相关专利信息
电力系统模型
电力硬件设备
电力系统风险评估
检测工具
测试方法
发电机励磁系统
故障诊断模型
粒子群优化算法
故障诊断方法
参数