一种用于视频理解模型推理加速的视觉令牌去除方法

正文

推荐专利

申请号：CN202411935022

申请日期：2024-12-25

公开号：CN119863739A

公开日期：2025-04-22

类型：发明专利

摘要

本发明提供了一种用于视频理解模型推理加速的视觉令牌去除方法，该方法基于视觉注意力收缩现象，通过分析推理预填充阶段视觉令牌的注意力权重的分布与变化，动态评估视觉令牌的重要性，筛选并移除冗余令牌，从而减少计算开销并提升推理效率。方法包括：对视频输入进行帧采样和区域划分得到具有时空结构的图像块；通过利用视觉编码器与投影器提取视觉特征并生成视觉令牌；将视觉令牌与系统令牌、文本令牌拼接形成多模态输入；跟踪文本对视觉的注意力变化趋势评估视觉令牌的重要性；通过分组与聚合方式加快识别不重要的视觉令牌，并在推理中逐步移除。在保持输出质量的同时，该方法显著降低了推理时间和内存占用。

技术关键词

令牌视觉特征图像块视频摘要提取文本收缩现象关键视觉信息多层注意力多模态缓存机制阶段冗余注意力机制动态投影器内存连续性

一种用于视频理解模型推理加速的视觉令牌去除方法

站点导航

APP 下载