多模态视频异常理解任务,又有新突破!
“异常理解”是指在视频监控、自动驾驶等场景中,利用模型发现视频中的异常内容,从而预判危险,以便及时做出决策。
来自华中科大等机构的研究人员,提出了新的视频异常理解模型Holmes-VAU,以及相关数据集。
与通用多模态大模型对比,Holmes-VAU在各种时序粒度的视频异常理解上都展现出显著优势。
为了实现开放世界的多模态视频异常理解(VAU),已有的VAU benchmark只有短视频的caption标注或长视频的instruction标注,忽略了视频异常事件的时序复杂性。
为同时促进模型对短视频的感知能力和对长视频的推理能力,作者提出了一种高效半自动数据引擎并构建了HIVAU-70k数据集,包含超7万视频异常理解任务的多时序尺度指令数据。
同时作者提出了一种基于异常分数的时序采样器,从长视频中动态稀疏采样关键帧到后续多模态大模型中,显著提升了异常分析的准确性和推理效率。
针对视频异常理解任务(Video Anomaly Understanding),以往的一些异常视频指令数据集主要有两方面问题:
为此,作者提出了一个大型多模态指令数据集HIVAU-70k,其中包含多种时间粒度的视频异常标注,由粗到细分别为:
HIVAU-70k中的指令数据包括视频描述、异常判断、异常描述和异常分析等任务,为视频异常理解多模态大模型提供了丰富多样的数据来源。
这样的多层级指令数据集是怎么构造的呢?从一个未裁剪的长视频开始,需要依次经过以下三个步骤:
与其他相关的数据集相比,HIVAU-70k不仅有数量上的优势,还提供了多粒度的文本标注以及时序上的异常边界标注。
长视频异常理解在使用大型语言模型(LLMs)或视觉语言模型(VLMs)时,常因帧冗余问题而受到限制,导致异常检测的准确性变得复杂。
以往的VAU(视频异常理解)方法难以聚焦异常。
例如,密集窗口采样方法会增加大量冗余帧的计算量,而均匀帧采样方法常常错过关键异常帧,使其应用范围局限于短视频。
为此,作者提出了Anomaly-focused Temporal Sampler (ATS),并将其集成到VLM中,通过在HIVAU-70k上的指令微调,构建了Holmes-VAU模型。
异常帧通常比正常帧包含更多信息,并表现出更大的变化,基于这一观察,作者设计了一种采样策略,在异常分数较高的区域采样更多帧,同时在分数较低的区域减少采样。
为实现非均匀采样,作者提出了一种“密度感知采样器”(density-aware sampler),用于从总共T个输入帧中选择N个帧。
具体来说,作者将异常分数S视为概率质量函数,并首先沿时间维度累积它们,得到累积分布函数(CDF),记为 S_cumsum:
接着,在累积轴上均匀采样N个点,并将这些点映射到累积分布S_cumsum上。相应的时间轴上的N个时间戳会被映射到最接近的帧索引,最终形成采样的帧索引集合G。
△Holmes-VAU模型框架图
下入展示了测试集上的异常分数和采样帧的可视化结果。这些结果表明了ATS的准确异常检测能力,最终输入到多模态大模型的采样帧也集中于异常区域。
△Anomly-focused Temporal Sampler (ATS) 异常分数及采样帧示意图
作者在HIVAU-70k的测试集上,将模型输出的推理文本与注释的真实文本进行比较,计算了包括BLEU、CIDEr、METEOR和ROUGE等指标来衡量模型输出的异常理解文本质量。
与通用多模态大模型对比,Holmes-VAU在各种时序粒度的视频异常理解上都展现出显著优势。
在多层级标注中,对不同层级指令数据集的组合,可以观察发现,单一层级的标注只能提升单一层级任务的性能。
不同层级的标注组合可以相互补充,实现从clip-level的基础视觉感知, 到event-level单一异常事件的分析,再到video-level的长时序异常总结和推理等方面的全面提升,达到更细粒度和完整的多模态异常空间对齐。
对于非均匀采样器的作用,作者也对比了不同帧采样方式,包括本文提出的ATS、之前方法用的Top-K采样和Uniform采样。
结果表明在相同的采样帧数下,ATS展现出更优越的长视频异常理解能力,这是由于Top-K采样过于集中在异常帧,忽略了视频上下文的参考,Uniform采样则容易忽略关键的异常帧。
而作者提出的ATS则有效结合了这两者的优势,关注异常帧的同时,能够保留部分上下文帧的采样。
下图对比了Holmes-VAU和其他MLLM输出的异常分析文本,Holmes-VAU表现出更准确的异常判断和分析能力,同时对长视频也表现出更完整的异常总结能力。
△Holmes-VAU和其他MLLM的异常分析文本质量对比
论文:
https://arxiv.org/abs/2412.06171
代码:
https://github.com/pipixin321/HolmesVAU
文章来自于“量子位”,作者“HolmesVAU团队”。
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner