基于极限量化和多重蒸馏的大语言模型量化压缩方法

AITNT
正文
推荐专利
基于极限量化和多重蒸馏的大语言模型量化压缩方法
申请号:CN202511147871
申请日期:2025-08-15
公开号:CN121031698A
公开日期:2025-11-28
类型:发明专利
摘要
本发明提供一种基于极限量化和多重蒸馏的大语言模型量化压缩方法,包括:第一次量化精度转换:使用自然语言理解基准测试集,以32位的BERT基准模型作为教师模型,通过量化训练得到以8位的中间模型;第二次量化精度转换步骤:使用自然语言理解基准测试集,以8位的中间模型作为教师模型,通过量化训练得到1位的目标模型;将目标模型配置于边缘服务器中,用于资源受限边端环境的自然语言分析处理。本发明的有益效果是,以经典的BERT模型为目标模型,对BERT模型进行深度压缩优化,将32位存储位数量化压缩到1位,大大减少模型大小,同时使用多重蒸馏技术,保证模型性能最小损失的前提下,提高其在受限边端设备中的实用性。
技术关键词
自然语言理解 注意力 中间层 自然语言分析 分词算法 线性变换矩阵 学生 教师 基准 精度 蒸馏 受限 服务器 资源 数据 参数
系统为您推荐了相关专利信息
1
图像识别方法、诊断方法、系统及存储介质
图像识别方法 神经网络模型 实时图像 引入注意力机制 诊断方法
2
一种铜线镀钯生产线异常检测方法及系统
异常检测方法 序列 变量 编码器 实时数据
3
动作识别模型构建方法、装置、计算机设备及存储介质
动作识别模型 样本 矩阵 数据 计算机设备
4
一种基于大语言模型集合任务提示的文档检索方法和装置
文档检索方法 序列 掩码矩阵 大语言模型 分词
5
一种网络安全事件识别模型部署方法及系统
动态剪枝 网络拓扑特征 网络安全事件 历史监测数据 编码模块
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号