摘要
本发明公开了一种基于最优量化编码的大语言模型权重量化方法,所述方法包括分块、归一化、生成量化编码、量化和反量化,实现大语言模型的权重量化,包括以下步骤:步骤一、将待量化的权重矩阵分成若干数据块;步骤二、对每个数据块中的元素进行归一化处理;步骤三、根据归一化后的权重矩阵数值分布特点,采用聚类的方法生成量化目标编码;步骤四、将步骤二中归一化处理后的每个数据块中的元素映射到步骤三中所述量化目标编码的索引值,实现元素的量化;步骤五、查找所述索引值在所述量化目标编码中对应的浮点数,与数据块的归一化常量相乘获得反量化的浮点数。本发明还公开了实现上述方法的系统及应用,具有广泛应用场景。
技术关键词
初始化方法
初始聚类中心
浮点数
编码
反量化模块
大语言模型
索引
量化系统
K均值聚类方法
元素
分块
硬件系统
数据分布
矩阵
量化误差
数值
处理器
可读存储介质