基于多模态信息的开放词汇视频异常检测方法及装置

正文

推荐专利

申请号：CN202510516946

申请日期：2025-04-23

公开号：CN120673299A

公开日期：2025-09-19

类型：发明专利

摘要

本申请特别涉及一种基于多模态信息的开放词汇视频异常检测方法及装置，其中，方法包括：基于预设的大语言模型获取标签文本和名词概念槽文本，并输入至预训练的多模态模型得到标签文本编码和名词概念槽；基于预训练的多模态模型获取视频帧的视觉编码并时序建模得到时序建模后的视觉编码；基于时序建模后的视觉编码和名词概念槽得到第一增强结果，并基于时序建模后的视觉编码和标签文本编码得到第二增强结果，根据增强结果得到最终异常分数；融合视频帧的视觉编码和时序建模后的视觉编码，与标签文本编码进行多模态匹配，选择满足预设距离条件的标签文本为目标预测结果。由此，解决了相关技术中检测模糊和分类混淆等问题，提升了检测准确性。

技术关键词

标签文本视频异常检测方法多模态信息概念编码时序计算机程序产品列表异常检测装置处理器关键词可读存储介质模块存储器场景

基于多模态信息的开放词汇视频异常检测方法及装置

站点导航

APP 下载