摘要
本发明涉及视频异常检测技术,揭露了一种基于多模态特征对齐的视频异常检测方法,包括:提取目标视频的视觉文本类别标签并生成视觉完整语句提示后输入至文本编码器中得到视觉文本特征;利用视觉时间网络提取目标视频的视觉特征,根据视觉文本特征和视觉特征获取视觉‑文本对齐图及跨模态增强视觉特征;提取目标视频中音频文件,并获取音频‑文本对齐图及跨模态增强音频特征;将跨模态增强视觉特征和跨模态增强音频特征拼接后输入至异常分类器中得到异常分类结果;利用视觉‑文本对齐图与音频‑文本对齐图获取事件类别分类结果。本发明还提出一种基于多模态特征对齐的视频异常检测装置、设备以及介质。本发明可以提高视频异常检测的准确性。
技术关键词
视频异常检测方法
多模态特征
局部视觉特征
跨模态
注意力
音频特征
序列特征
文本编码器
文本特征值
掩码矩阵
异常检测装置
语句
融合视觉
系统为您推荐了相关专利信息
恶意代码检测方法
恶意代码家族
特征提取模型
恶意代码分类
恶意代码检测系统
交叉注意力机制
计算机装置设备
处理器
频率
卷积神经网络模型
散热模块
封装方法
矩阵
三明治结构
层叠式散热结构
分类系统
路面识别方法
车辆动力学模型
前端数据采集模块
卷积神经网络框架