摘要
本发明公开了一种基于多模态交互的异常特征增强的视频异常检测方法,包括以下步骤:S1、获取监控区域视频、公共区域视频及预标注异常数据集,作为输入视频数据;S2、处理输入视频数据:S21、将输入视频数据分割为视频帧;S22、根据输入视频数据得到视频的语言文本描述,将其作为后续的文本特征信息;S3、将上述视觉特征信息与文本特征信息处理为同维度的特征,并输入到CLIP中进行特征空间模态匹配;S4、通过CLIP对异常视觉特征进行两次提取,得到特征更具有增强性与关键异常性,本发明通过视觉与语言两种模态交互的方式提取视频中具有异常的信息,使模型检测时更多关注于关键的异常特征,并且通过二次提取得到具有增强的、全面的关键异常。
技术关键词
视频异常检测方法
多模态交互
文本
视频帧
特征信息处理
视觉特征信息
相似性匹配方法
异常数据
注意力
有效性
字幕
动态
语义
机制
指标
网络
系统为您推荐了相关专利信息
自动生成方法
知识库构造
筛选出合格
可读存储介质
自动生成系统
知识问答方法
命名实体模型
意图识别模型
医疗知识图谱
医疗文本数据