摘要
本申请涉及人工智能技术领域,公开了一种基于推测解码评估大模型量化质量的方法、系统、设备,该方法包括:配置推测解码执行环境,将全精度版本模型设置为主模型,并将至少一个量化版本模型中的一个设置为草稿模型,设置确定性采样参数;向推测解码执行环境提供输入提示词,并驱动主模型和草稿模型执行推测解码过程,以生成输出词元序列;在推测解码过程中,统计由草稿模型生成并被主模型验证通过而接受的词元数量,并计算接受词元数量占草稿模型总生成词元数量的比例,得到词元接受率;基于词元接受率,确定量化版本模型的量化质量。本公开可以快速、客观且对特定量化缺陷进行准确地评估。
技术关键词
解码
大语言模型
人工智能技术
精度
计算机
参数
处理器通信
指令
比特数
模块
序列
可读存储介质
存储器
基准
电子设备
系统为您推荐了相关专利信息
虚拟惯量
新能源电力系统
虚拟同步机
估计方法
样本
大语言模型
编排方法
工作流执行方法
关键字
工作流执行装置
定位算法
定位基站
设备定位方法
蓝牙信标
信号到达时间
视频异常检测方法
预训练模型
编码器
解码器架构
输入解码器