摘要
本发明公开了基于对比语言图像预训练多模态特征融合的监控视频异常事件检测方法及系统,所述方法包括:基于CLIP模型将文本特征和图像特征映射到同一个特征空间的特性,将异常描述的文本特征与其在视频中更加相似的异常片段特征进行有效地跨模态融合。利用大语言模型产生的一些正常和异常文本描述语句,利用CLIP的文本编码器映射到与图像同一的特征空间中,随机选择文本描述,构建一个具有片段级别精确标注的伪视频序列,输入到原模型,有效地提升模型对于异常片段的定位能力。最后使用一种基于文本类别标签的视频级别特征模糊分类策略,产生每个视频对于所有文本类别的视频级别特征,输入到原模型中,对视频级别特征进行模糊分类。
技术关键词
多模态特征融合
编码特征
分类神经网络
预训练模型
图像编码器
视频特征提取
文本编码器
序列
大语言模型
融合特征
视频帧
适配器
多层感知机
分类网络
系统为您推荐了相关专利信息
编码特征
图像检索模型
图像编码器
图像块特征
时间序列特征
自然语言
姿态估计方法
图像特征编码
样本
图像类别
自动化检测方法
电子铅封
抗干扰特征
温湿度
跨模态
海量视频数据
掩膜
迭代优化方法
图像重建
编码器