摘要
本发明公开了一种基于小波变换和BiLLM的大语言模型量化方法,包括:输入LLM;对于LLM的每一个网络权重矩阵,应用Haar小波变换分解网络权重矩阵,得到小波系数矩阵;对小波系数矩阵中的低频系数部分进行分块,选出最优阈值,将小于最优阈值的权重置零,不小于最优阈值的部分进行量化,压缩小波系数矩阵的低频系数部分;应用BiLLM二值残差逼近方法,压缩小波系数矩阵的高频系数部分;LLM的每一个网络权重矩阵完成处理后,即完成LLM的量化;其中小波低频系数的量化阈值采用浮点数指数范围的线性量化替代实数轴上的线性量化。本发明结合了传统的小波变换数据压缩策略和面向LLM的BiLLM二值残差逼近算法,在保持LLM正确性的基础上实现LLM的压缩存储。
技术关键词
矩阵
数据压缩策略
浮点数
元素
分块
逼近算法
网络
指数
线性
计算方法
符号
基础
系统为您推荐了相关专利信息
多头注意力机制
神经网络模型
矩阵
信息预估方法
对象
污染物特征
筛查方法
质谱指纹图谱
指纹图谱构建
真空泵系统
文本分类方法
矩阵乘法运算
分词模型
注意力
序列