一种基于多模态特征对齐的视频异常检测方法以及装置

正文

推荐专利

申请号：CN202510589894

申请日期：2025-05-08

公开号：CN120451673A

公开日期：2025-08-08

类型：发明专利

摘要

本发明涉及视频异常检测技术，揭露了一种基于多模态特征对齐的视频异常检测方法，包括：提取目标视频的视觉文本类别标签并生成视觉完整语句提示后输入至文本编码器中得到视觉文本特征；利用视觉时间网络提取目标视频的视觉特征，根据视觉文本特征和视觉特征获取视觉‑文本对齐图及跨模态增强视觉特征；提取目标视频中音频文件，并获取音频‑文本对齐图及跨模态增强音频特征；将跨模态增强视觉特征和跨模态增强音频特征拼接后输入至异常分类器中得到异常分类结果；利用视觉‑文本对齐图与音频‑文本对齐图获取事件类别分类结果。本发明还提出一种基于多模态特征对齐的视频异常检测装置、设备以及介质。本发明可以提高视频异常检测的准确性。

技术关键词

视频异常检测方法多模态特征局部视觉特征跨模态注意力音频特征序列特征文本编码器文本特征值掩码矩阵异常检测装置语句融合视觉

系统为您推荐了相关专利信息

一种API语义矢量化Transformer恶意代码检测方法和系统

恶意代码检测方法恶意代码家族特征提取模型恶意代码分类恶意代码检测系统

基于多频带交叉注意力机制的信号伪迹去除方法、系统

交叉注意力机制计算机装置设备处理器频率卷积神经网络模型

一种基于梯度热阻优化的全碳化硅双面散热模块封装方法

散热模块封装方法矩阵三明治结构层叠式散热结构

一种非铺装路面识别与分类系统

分类系统路面识别方法车辆动力学模型前端数据采集模块卷积神经网络框架

一种基于多模态大模型的智能体架构

模块记忆画像多模态大语言模型

一种基于多模态特征对齐的视频异常检测方法以及装置

站点导航

APP 下载