摘要
本发明公开一种大语言模型权重与激活联合量化方法及系统,属于模型量化技术领域;方法包括:收集并预处理校准集,输入大语言模型执行前向传播,记录激活矩阵;针对每个嵌入维度,统计所有词元在维度上的激活最大绝对值;通过分位数统计方法结合全局敏感性系数,生成全局阈值,判定维度中激活最大绝对值超过所述全局阈值的为离群值维度;分别对正常维度与离群值维度设计缩放因子,生成重构权重矩阵;使用贝叶斯‑梯度联合优化重构权重的截断阈值;计算重构权重矩阵的缩放因子,得到重构量化权重矩阵;对当前层的激活矩阵按嵌入维度应用缩放因子进行量化;并与重构量化权重矩阵进行乘法计算,得到整型域中乘法输出结果,之后进行统一反量化恢复。
技术关键词
联合量化方法
大语言模型
矩阵
因子
统计方法
索引
反量化模块
校准
通信接口
量化系统
计算机存储介质
计算机程序产品
处理器
重构模块
存储器
指令
数值