摘要
本发明公开一种针对大语言模型的终端效能评测方法和装置,其中,该方法包括:数据构建步骤,根据大语言模型的特点和涉及的领域,从大语言模型面向业务方向和通用能力方向构建多维度测试数据集,多维度测试数据集包括多个类型,每一类型下进一步区分不同难度的数据集,数据集包括多条测试数据;指标构建步骤,对多维度测试数据集,按照类型分别设定效能指标;模型测试步骤,使用多维度测试数据集对大语言模型发起负载请求,依次或随机对大语言模型内部的群组进行调用执行,记录执行过程中的各项效能指标以及执行结果;效能评测步骤,根据模型测试步骤中记录的各项效能指标以及执行结果,输出效能分析报告。
技术关键词
终端效能
大语言模型
评测方法
效能分析
指标
报告
数据
评测装置
会计
测试模块
卡壳
图表
摘要
表格
冗余
文本
基准
标记