AI危险检测再进化！三层级解析长视频异常，各种时序粒度均有明显优势

正文

资源拓展

AI危险检测再进化！三层级解析长视频异常，各种时序粒度均有明显优势 | CVPR HighLight

2025-04-08 15:01

多模态视频异常理解任务，又有新突破！

“异常理解”是指在视频监控、自动驾驶等场景中，利用模型发现视频中的异常内容，从而预判危险，以便及时做出决策。

来自华中科大等机构的研究人员，提出了新的视频异常理解模型Holmes-VAU，以及相关数据集。

与通用多模态大模型对比，Holmes-VAU在各种时序粒度的视频异常理解上都展现出显著优势。

AI危险检测再进化！三层级解析长视频异常，各种时序粒度均有明显优势 | CVPR HighLight

为了实现开放世界的多模态视频异常理解（VAU），已有的VAU benchmark只有短视频的caption标注或长视频的instruction标注，忽略了视频异常事件的时序复杂性。

为同时促进模型对短视频的感知能力和对长视频的推理能力，作者提出了一种高效半自动数据引擎并构建了HIVAU-70k数据集，包含超7万视频异常理解任务的多时序尺度指令数据。

同时作者提出了一种基于异常分数的时序采样器，从长视频中动态稀疏采样关键帧到后续多模态大模型中，显著提升了异常分析的准确性和推理效率。

多层级视频异常理解指令数据集

针对视频异常理解任务(Video Anomaly Understanding)，以往的一些异常视频指令数据集主要有两方面问题：

数据集中的视频时长较短，导致模型缺乏对长视频的异常理解能力；
即便包含长视频，也缺乏对长视频的细粒度和结构化的标注，导致模型的异常理解空间难以对齐。

为此，作者提出了一个大型多模态指令数据集HIVAU-70k，其中包含多种时间粒度的视频异常标注，由粗到细分别为：

video-level：未裁剪长视频，包括视频中所有异常事件的文本描述分析；
event-level：从长视频中裁剪出的异常事件片段，包括单个异常事件的文本描述分析；
clip-level：从event中进一步裁剪出的视频片段，包括视频片段的文本描述。

HIVAU-70k中的指令数据包括视频描述、异常判断、异常描述和异常分析等任务，为视频异常理解多模态大模型提供了丰富多样的数据来源。

AI危险检测再进化！三层级解析长视频异常，各种时序粒度均有明显优势 | CVPR HighLight

这样的多层级指令数据集是怎么构造的呢？从一个未裁剪的长视频开始，需要依次经过以下三个步骤：

分层视频解耦（Hierarchical Video Decoupling）：将video-level视频中的异常事件标注并裁剪出来，得到event-level视频, 再对event-level视频进一步平均切分得到clip-level视频；
分层自由文本注释（Hierarchical Free-text Annotation）：对于clip-level视频，使用人工或caption model得到clip caption；对于event-level视频，结合所包含的clip-level caption和异常类别，提示LLM得到事件总结；对于video-level视频，结合所包含的事件总结和异常类别，提示LLM得到视频总结；
层次化指令数据构建（Hierarchical Instruction Data Construction）：针对不同层级的视频及其文本标注，设计不同的任务，构造任务相关的问题并与文本注释组合，得到最终的指令数据。

AI危险检测再进化！三层级解析长视频异常，各种时序粒度均有明显优势 | CVPR HighLight

与其他相关的数据集相比，HIVAU-70k不仅有数量上的优势，还提供了多粒度的文本标注以及时序上的异常边界标注。

AI危险检测再进化！三层级解析长视频异常，各种时序粒度均有明显优势 | CVPR HighLight

动态稀疏采样的视频异常理解模型

长视频异常理解在使用大型语言模型（LLMs）或视觉语言模型（VLMs）时，常因帧冗余问题而受到限制，导致异常检测的准确性变得复杂。

以往的VAU（视频异常理解）方法难以聚焦异常。

例如，密集窗口采样方法会增加大量冗余帧的计算量，而均匀帧采样方法常常错过关键异常帧，使其应用范围局限于短视频。

为此，作者提出了Anomaly-focused Temporal Sampler (ATS)，并将其集成到VLM中，通过在HIVAU-70k上的指令微调，构建了Holmes-VAU模型。

异常帧通常比正常帧包含更多信息，并表现出更大的变化，基于这一观察，作者设计了一种采样策略，在异常分数较高的区域采样更多帧，同时在分数较低的区域减少采样。

为实现非均匀采样，作者提出了一种“密度感知采样器”（density-aware sampler），用于从总共T个输入帧中选择N个帧。

具体来说，作者将异常分数S视为概率质量函数，并首先沿时间维度累积它们，得到累积分布函数（CDF），记为 S_cumsum：

AI危险检测再进化！三层级解析长视频异常，各种时序粒度均有明显优势 | CVPR HighLight

接着，在累积轴上均匀采样N个点，并将这些点映射到累积分布S_cumsum上。相应的时间轴上的N个时间戳会被映射到最接近的帧索引，最终形成采样的帧索引集合G。

AI危险检测再进化！三层级解析长视频异常，各种时序粒度均有明显优势 | CVPR HighLight

△Holmes-VAU模型框架图

下入展示了测试集上的异常分数和采样帧的可视化结果。这些结果表明了ATS的准确异常检测能力，最终输入到多模态大模型的采样帧也集中于异常区域。

AI危险检测再进化！三层级解析长视频异常，各种时序粒度均有明显优势 | CVPR HighLight

△Anomly-focused Temporal Sampler (ATS) 异常分数及采样帧示意图

实验结果

异常推理性能评估

作者在HIVAU-70k的测试集上，将模型输出的推理文本与注释的真实文本进行比较，计算了包括BLEU、CIDEr、METEOR和ROUGE等指标来衡量模型输出的异常理解文本质量。

与通用多模态大模型对比，Holmes-VAU在各种时序粒度的视频异常理解上都展现出显著优势。

AI危险检测再进化！三层级解析长视频异常，各种时序粒度均有明显优势 | CVPR HighLight

在多层级标注中，对不同层级指令数据集的组合，可以观察发现，单一层级的标注只能提升单一层级任务的性能。

不同层级的标注组合可以相互补充，实现从clip-level的基础视觉感知, 到event-level单一异常事件的分析，再到video-level的长时序异常总结和推理等方面的全面提升，达到更细粒度和完整的多模态异常空间对齐。

AI危险检测再进化！三层级解析长视频异常，各种时序粒度均有明显优势 | CVPR HighLight

对于非均匀采样器的作用，作者也对比了不同帧采样方式，包括本文提出的ATS、之前方法用的Top-K采样和Uniform采样。

结果表明在相同的采样帧数下，ATS展现出更优越的长视频异常理解能力，这是由于Top-K采样过于集中在异常帧，忽略了视频上下文的参考，Uniform采样则容易忽略关键的异常帧。

而作者提出的ATS则有效结合了这两者的优势，关注异常帧的同时，能够保留部分上下文帧的采样。

AI危险检测再进化！三层级解析长视频异常，各种时序粒度均有明显优势 | CVPR HighLight

定性比较

下图对比了Holmes-VAU和其他MLLM输出的异常分析文本，Holmes-VAU表现出更准确的异常判断和分析能力，同时对长视频也表现出更完整的异常总结能力。

AI危险检测再进化！三层级解析长视频异常，各种时序粒度均有明显优势 | CVPR HighLight

△Holmes-VAU和其他MLLM的异常分析文本质量对比

论文：

https://arxiv.org/abs/2412.06171

代码：

https://github.com/pipixin321/HolmesVAU

文章来自于“量子位”，作者“HolmesVAU团队”。

AI危险检测再进化！三层级解析长视频异常，各种时序粒度均有明显优势 | CVPR HighLight

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。

项目地址：https://github.com/InternLM/xtuner

IOS下载

安卓下载

微信群