摘要
本发明具体涉及一种视听协同异常行为检测的方法,包括:构建AVadCLIP模型;将测试视频和音频输入至AVadCLIP中,利用图像编码器和音频编码器提取图像和音频特征,利用文本编码器提取文本的标签特征;对图像和音频特征进行融合,得到多模态融合特征;对多模态融合特征进行粗粒度二元分类,得到异常置信度;利用多模态融合特征、异常置信度和文本标签特征进行有效的视听提示,得到文本标签特征;根据多模态融合特征和文本标签特征,得到测试视频的预测结果。本公开实施例的视听融合通过轻量级的参数自适应实现自适应跨模态集成;基于视听特征和文本标签之间的语义相关性,动态增强关键多模态信息的文本嵌入,显著提高了CLIP对视频异常检测任务的泛化能力。
技术关键词
标签特征
融合特征
音频特征
视听
音频编码器
文本编码器
视频
图像编码器
多模态信息
生成向量
分类器
机制
注意力
矩阵
多实例