摘要
本发明具体公开了一种基于量化后大语言模型的模型压缩方法,涉及大语言模型压缩技术领域。该方法包括:S1、对预训练的大语言模型进行量化处理,得到量化后的权重矩阵,并计算量化后剪枝优化目标函数;S2、基于量化后的权重矩阵,设计量化后剪枝度量指标,剪枝度量指标结合量化后权重的绝对值与原始权重的剪枝度量正则化结果;S3、基于剪枝度量指标,对量化后的权重进行重要性排序,生成动态的二进制剪枝掩码,通过分块优化算法最小化量化和剪枝误差。该方法采用分块量化后剪枝算法,最小化量化和剪枝误差,在保证模型性能的前提下,最大化模型压缩率,以满足实际应用对模型的需求。
技术关键词
模型压缩方法
量化误差
度量
掩码矩阵
元素
指标
分层
剪枝模型
模型剪枝
分块
大语言模型
动态
重构误差
算法
表达式
定义
参数
数据