一种基于量化后大语言模型的模型压缩方法

正文

推荐专利

一种基于量化后大语言模型的模型压缩方法

申请号：CN202510714391

申请日期：2025-05-30

公开号：CN120235208A

公开日期：2025-07-01

类型：发明专利

摘要

本发明具体公开了一种基于量化后大语言模型的模型压缩方法，涉及大语言模型压缩技术领域。该方法包括：S1、对预训练的大语言模型进行量化处理，得到量化后的权重矩阵，并计算量化后剪枝优化目标函数；S2、基于量化后的权重矩阵，设计量化后剪枝度量指标，剪枝度量指标结合量化后权重的绝对值与原始权重的剪枝度量正则化结果；S3、基于剪枝度量指标，对量化后的权重进行重要性排序，生成动态的二进制剪枝掩码，通过分块优化算法最小化量化和剪枝误差。该方法采用分块量化后剪枝算法，最小化量化和剪枝误差，在保证模型性能的前提下，最大化模型压缩率，以满足实际应用对模型的需求。

技术关键词

模型压缩方法量化误差度量掩码矩阵元素指标分层剪枝模型模型剪枝分块大语言模型动态重构误差算法表达式定义参数数据

一种基于量化后大语言模型的模型压缩方法

站点导航

APP 下载