摘要
本申请提供一种大语言模型的量化方法,针对每一个线性层:计算该线性层的权重量化敏感度,根据每个线性层的权重量化敏感度和目标混精比例,确定每个线性层的高精度位宽比例;针对每一个线性层的多个通道,基于该线性层的输入激活,获取该线性层中每个通道的通道量化敏感度;依照通道量化敏感度对该线性层中的多个通道排序,结合该线性层的高精度位宽比例,对排序后的多个通道进行分簇,为不同簇的通道对应的权重参数分配不同精度的量化位宽;对同一个簇的多个通道,按照分布相似指标进行重排,对重排后的通道分组,按照所分配的量化位宽,对每组通道的权重参数同步进行量化,得到量化后的大语言模型。
技术关键词
大语言模型
线性
通道
量化误差
计算机可读指令
精度
指标
参数
量化系统
矩阵
校准
客户端
电子设备
显示器
服务器
文本
基础
存储器
处理器
样本