基于极限量化和多重蒸馏的大语言模型量化压缩方法

正文

推荐专利

申请号：CN202511147871

申请日期：2025-08-15

公开号：CN121031698A

公开日期：2025-11-28

类型：发明专利

摘要

本发明提供一种基于极限量化和多重蒸馏的大语言模型量化压缩方法，包括：第一次量化精度转换：使用自然语言理解基准测试集，以32位的BERT基准模型作为教师模型，通过量化训练得到以8位的中间模型；第二次量化精度转换步骤：使用自然语言理解基准测试集，以8位的中间模型作为教师模型，通过量化训练得到1位的目标模型；将目标模型配置于边缘服务器中，用于资源受限边端环境的自然语言分析处理。本发明的有益效果是，以经典的BERT模型为目标模型，对BERT模型进行深度压缩优化，将32位存储位数量化压缩到1位，大大减少模型大小，同时使用多重蒸馏技术，保证模型性能最小损失的前提下，提高其在受限边端设备中的实用性。

技术关键词

自然语言理解注意力中间层自然语言分析分词算法线性变换矩阵学生教师基准精度蒸馏受限服务器资源数据参数

系统为您推荐了相关专利信息

图像识别方法、诊断方法、系统及存储介质

图像识别方法神经网络模型实时图像引入注意力机制诊断方法

一种铜线镀钯生产线异常检测方法及系统

异常检测方法序列变量编码器实时数据

动作识别模型构建方法、装置、计算机设备及存储介质

动作识别模型样本矩阵数据计算机设备

一种基于大语言模型集合任务提示的文档检索方法和装置

文档检索方法序列掩码矩阵大语言模型分词

一种网络安全事件识别模型部署方法及系统

动态剪枝网络拓扑特征网络安全事件历史监测数据编码模块

基于极限量化和多重蒸馏的大语言模型量化压缩方法

站点导航

APP 下载