摘要
本发明提供了一种大语言模型二值化压缩方法及系统。其中方法包括:对大语言模型进行后训练二值化压缩处理,得到1‑bit结构化权重初始模型;对结构化权重初始模型的每一层的权重矩阵进行Hadamard归一化预处理;基于归一化处理后的模型构造量化感知训练初始点;基于初始点,采用逐层冻结‑解冻策略,对归一化处理后的模型逐层进行量化感知训练,输出最终稳定训练后的1‑bit模型,完成大语言模型的可训练二值化压缩处理。本发明可应用于医疗语义标注任务、不具备训练语料的嵌入式部署任务以及手机端NLP推理加速任务等任务中,显著提升低比特模型的可训练性与收敛速度,形成了训练效率高、模型精度高的一体化压缩方法。
技术关键词
大语言模型
Hadamard变换
插值模块
矩阵
量化误差
语义标注方法
医疗文本数据
策略
校准
动态
医疗场景
线性
压缩系统
因子
分布特征
中间层