一种用于视频理解模型推理加速的视觉令牌去除方法

AITNT
正文
推荐专利
一种用于视频理解模型推理加速的视觉令牌去除方法
申请号:CN202411935022
申请日期:2024-12-25
公开号:CN119863739A
公开日期:2025-04-22
类型:发明专利
摘要
本发明提供了一种用于视频理解模型推理加速的视觉令牌去除方法,该方法基于视觉注意力收缩现象,通过分析推理预填充阶段视觉令牌的注意力权重的分布与变化,动态评估视觉令牌的重要性,筛选并移除冗余令牌,从而减少计算开销并提升推理效率。方法包括:对视频输入进行帧采样和区域划分得到具有时空结构的图像块;通过利用视觉编码器与投影器提取视觉特征并生成视觉令牌;将视觉令牌与系统令牌、文本令牌拼接形成多模态输入;跟踪文本对视觉的注意力变化趋势评估视觉令牌的重要性;通过分组与聚合方式加快识别不重要的视觉令牌,并在推理中逐步移除。在保持输出质量的同时,该方法显著降低了推理时间和内存占用。
技术关键词
令牌 视觉特征 图像块 视频摘要提取 文本 收缩现象 关键视觉信息 多层注意力 多模态 缓存机制 阶段 冗余 注意力机制 动态 投影器 内存 连续性
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号