摘要
本发明公开了一种基于量化与Token剪枝技术的硬件友好的视觉Transformer压缩方法,包括以下步骤;步骤1:选取图像,对图像分类任务的视觉Transformer模型的权重值和激活值进行训练后量化,将量化参数处理成2的幂形式,得到量化模型;步骤2:在量化后模型的每个Block的多头注意力模块和前馈层之间插入一个Token压缩模块,Token压缩模块将不重要的token进行剪枝;对插入了Token压缩模块的量化后模型进行训练,学习剪枝参数,搜索出来的剪枝参数实现了量化精度与剪枝率的均衡。本发明具有硬件部署高效、可充分利用端侧设备整型推理算力、大幅度减少模型推理计算量和存储需求的特点。
技术关键词
剪枝技术
视觉
参数
注意力
校准算法
图像
模块
矩阵
复杂度
误差
精度
通道
图片
数据
编码
代表
关系
系统为您推荐了相关专利信息
激光控制系统
模拟模型
二氧化碳激光器
脉冲
周期
分布式语义
推理规则
语义协同
逻辑
知识图谱平台