摘要
本发明提供了一种用于视频理解模型推理加速的视觉令牌去除方法,该方法基于视觉注意力收缩现象,通过分析推理预填充阶段视觉令牌的注意力权重的分布与变化,动态评估视觉令牌的重要性,筛选并移除冗余令牌,从而减少计算开销并提升推理效率。方法包括:对视频输入进行帧采样和区域划分得到具有时空结构的图像块;通过利用视觉编码器与投影器提取视觉特征并生成视觉令牌;将视觉令牌与系统令牌、文本令牌拼接形成多模态输入;跟踪文本对视觉的注意力变化趋势评估视觉令牌的重要性;通过分组与聚合方式加快识别不重要的视觉令牌,并在推理中逐步移除。在保持输出质量的同时,该方法显著降低了推理时间和内存占用。
技术关键词
令牌
视觉特征
图像块
视频摘要提取
文本
收缩现象
关键视觉信息
多层注意力
多模态
缓存机制
阶段
冗余
注意力机制
动态
投影器
内存
连续性