摘要
本发明提供一种模型量化方法、装置、设备、介质及计算机程序产品,所述方法包括:基于获取的待处理模型的权重信息,确定权重矩阵;基于所述权重矩阵,确定所述待处理模型的权重块数据和代码本数据;基于所述权重块数据和所述代码本数据,对所述权重块进行迭代量化,得到量化模型;对所述待处理模型和所述量化模型进行困惑度对比,得到模型量化结果。本发明提供的模型量化方法可以减少大语言模型的存储空间和需求计算资源,提高模型的推理速度和效率,从而在资源受限的环境下,实现模型的高效部署和推理。
技术关键词
矩阵
量化误差
计算机程序产品
数据
文本
表达式
处理器
大语言模型
块尺寸
模块
存储器
因子
电子设备
词语
介质
索引
受限
元素
系统为您推荐了相关专利信息
规则引擎技术
业务系统
场景分类
构建规则库
数据
掩码矩阵
生成对抗网络
模型训练方法
数据生成方法
非易失性存储介质