摘要
本发明提供一种基于极限量化和多重蒸馏的大语言模型量化压缩方法,包括:第一次量化精度转换:使用自然语言理解基准测试集,以32位的BERT基准模型作为教师模型,通过量化训练得到以8位的中间模型;第二次量化精度转换步骤:使用自然语言理解基准测试集,以8位的中间模型作为教师模型,通过量化训练得到1位的目标模型;将目标模型配置于边缘服务器中,用于资源受限边端环境的自然语言分析处理。本发明的有益效果是,以经典的BERT模型为目标模型,对BERT模型进行深度压缩优化,将32位存储位数量化压缩到1位,大大减少模型大小,同时使用多重蒸馏技术,保证模型性能最小损失的前提下,提高其在受限边端设备中的实用性。
技术关键词
自然语言理解
注意力
中间层
自然语言分析
分词算法
线性变换矩阵
学生
教师
基准
精度
蒸馏
受限
服务器
资源
数据
参数
系统为您推荐了相关专利信息
图像识别方法
神经网络模型
实时图像
引入注意力机制
诊断方法
动态剪枝
网络拓扑特征
网络安全事件
历史监测数据
编码模块