摘要
本发明涉及一种视觉大模型的混合粒度重建压缩方法及装置,属于计算机视觉领域。该方法首先对模型进行激活量化,并通过计算量化模型输出与全精度模型输出的KL散度,得到每个块的评价指标。然后,根据预设的超参数选择对模型输出影响最大的k个目标块,并对其进行渐进式重建。渐进式重建包括模块粒度和块粒度两个层次,首先对目标块内的多头注意力层和多层感知机进行模块粒度重建,使其输出特征与全精度模型一致,然后对整个目标块进行块粒度重建,进一步降低量化误差。本发明的装置包括块评价模块和渐进式重建模块。实验结果表明,本发明的方法和装置能够在极低比特宽度下显著提升视觉大模型的性能,并优于现有主流的训练后量化方法。
技术关键词
多层感知机
模块
注意力模型
多头注意力机制
压缩装置
精度
输出特征
评价指标筛选
量化器
参数
阶段
多层感知器
量化误差
计算机视觉
教师