基于低比特浮点数与模型训练后量化的模型压缩方法

正文

推荐专利

申请号：CN202411939757

申请日期：2024-12-26

公开号：CN119862917A

公开日期：2025-04-22

类型：发明专利

摘要

本发明公开了一种基于低比特浮点数与模型训练后量化的模型压缩方法，该模型压缩是适用于卷积网络和线性网络的。支持用户将高精度的模型压缩为4位或8位的低比特浮点数表示的模型。该方法通过用户设定的比特位宽进行模型压缩，在模型量化模块层内，使用了一种配置搜索算法找到最优的低比特浮点数量化配置，支持相同位宽的混合量化方案，其中相同位宽的浮点数存在多种指数位和尾数位的组合；在模型量化模块层之间的有数据校准的场景下，使用了一种联合校准优化流程，通过将原模型的输出作为当前量化后模型的数据校准对象，最大限度地减少量化后模型与原模型之间的输出误差，从而维持模型压缩后的精度。本发明提出使用低比特浮点数进行PTQ的模型压缩方法，为PTQ提供了一种新方案，可广泛应用于各种模型压缩的训练后量化任务中，维持模型压缩后的精度。

技术关键词

浮点数配置搜索空间模型压缩方法网络模块通道元素量化误差格式场景矩阵标识数据校准符号二维卷积网络

系统为您推荐了相关专利信息

一种脑部MRI超分辨率交叉融合自适应特征增强Transformer方法

峰值信噪比生成高分辨率浅层特征提取图像重建模块

一种数据矩阵处理方法、装置、电子设备以及存储介质

矩阵安全带像素点神经网络模型线段

一种RAG端到端检索优化方法

排序模型训练集整体优化方法检索文本块提升系统

一种基于无人机的船舶水尺图像识别方法及系统

船舶水尺图像图像识别方法无人机图像识别模型训练卷积神经网络模型

出货柜

出货机构货柜定位标记接驳台驱动组件

基于低比特浮点数与模型训练后量化的模型压缩方法

站点导航

APP 下载