摘要
本发明涉及图像处理技术,具体为融合图像特征压缩和自适应剪枝的多模态大模型推理加速方法,包括步骤:根据输入图像的宽高比、基准图像分辨率,确定输入图像的最佳图像分块数量,以动态匹配调整图像分辨率;对调整图像分辨率后的输入图像,通过视觉编码器和注意力模块处理获得图像特征令牌,分析图像特征令牌之间的冗余度及语义信息贡献度,保留对图像信息量贡献大的图像特征令牌,实现图像特征压缩;对输入文本进行编码,得到文本特征令牌;根据图像特征令牌和文本特征令牌的重要性分数,识别并去除视觉模态与文本模态的单模态冗余特征、跨模态冗余特征,剪除冗余模型结构。本发明在保留有效信息的同时尽可能提升模型推理速度。
技术关键词
令牌
注意力
分块
融合图像特征
分辨率
文本
冗余特征
跨模态
冗余度
像素
加速系统
语义
基准
序列
编码器
图像处理技术
动态
模块