摘要
本发明公开了一种视频异常检测系统、方法、计算机设备及存储介质,属于计算机视觉技术领域。针对现有技术中存在的视频异常检测精度差的问题,本发明构建跨模态信息交互模块,将视频特征和音频特征交互得到融合特征;构建文本信息对齐模块,对融合特征处理得到多模态特征,将多模态特征和文本特征进行对齐操作使文本特征约束多模态特征;最后在异常得分计算模块中对多模态特征处理得到高级特征,通过高级特征计算得到异常分数,根据异常分数判断待检测视频是否为异常视频,由此利用视频特征和音频特征的互补性和相关性以及文本提示信息使得视频异常片段的输出得分更高,能够快速判断待检测视频是否为异常视频,有效提高视频异常检测精度。
技术关键词
音频特征
多模态特征
异常检测系统
融合特征
文本
全局平均池化
时序特征
对齐模块
矩阵
多实例
多层感知机
视频异常检测方法
特征提取模块
跨模态
计算机设备
字典
系统为您推荐了相关专利信息
生成方法
自动化部署运维
自愈机制
机器学习模型
预训练模型
视频字幕生成方法
语义注意力
视觉特征
跨模态
解码器
SQL生成方法
Attention机制
词典构建方法
语义
电网调度业务
SPECT骨显像
降噪方法
混合损失函数
深度学习模型
解剖特征
监测数据恢复方法
海上风机
多模态特征融合
融合特征
样本