摘要
本发明公开了一种考虑不同线性层对数值精度敏感程度的大语言模型压缩方法,所述压缩方法包括如下步骤:步骤一、分析大语言模型中各线性层对数值精度的敏感程度;步骤二、根据步骤一中的分析结果,对敏感程度低的线性层进行低秩分解和/或使用更低的量化位宽进行量化;步骤三、对大语言模型进行重建,获得压缩重建后的大语言模型。本发明还公开了实现上述大语言模型压缩方法的系统及应用。
技术关键词
语言模型压缩方法
大语言模型
线性
压缩系统
网络模块
数值
矩阵
硬件系统
精度
浮点数
注意力
分析模块
转换器
处理器
可读存储介质
存储器
计算机
数据
系统为您推荐了相关专利信息
图像处理方法
大语言模型
行人重识别网络
轨迹
多模态