摘要
本申请涉及一种大语言模型推理吞吐量测试的方法、装置及程序产品,其中该方法包括:基于精度评测的数据集对待测试框架进行推理评测;记录所述推理评测中每个请求信息;分别计算每个时刻处于预填充阶段和解码阶段的请求均值;建立所述请求均值与吞吐量的函数,生成吞吐量预测模型。通过采用真实的精度评测的数据集来进行推理评测,同时通过吞吐量与输入输出长度的关系进行拟合,减少推理实用与测量吞吐量的偏差。将精度评测和吞吐量测量同时完成,减少额外的计算量。
技术关键词
大语言模型
非易失性计算机可读存储介质
计算机程序指令
阶段
精度
处理器
解码
数据
计算机程序产品
模块
框架
样本
服务器
存储器
偏差
矩阵
关系
系统为您推荐了相关专利信息
时间序列异常检测方法
多元时序数据
时序特征
注意力
计算机可读指令
平整度检测方法
粗糙度
底框
边缘检测
灰度共生矩阵
三元组
大语言模型
样本
多模态
知识图谱构建方法