摘要
本发明属于计算机科学与技术领域,特别是涉及多模态弱监督视频异常检测方法、装置、设备及介质。首先利用外部注意力机制来对片段间信息进行动态建模,得到跨片段的全局上下文信息;再使用时序上下文聚合模块和多尺度时间网络捕获片段内的视觉信息和文本信息的全局和局部信息,生成包含局部上下文细节和全局信息的特征表示。还采用多模态自适应融合的方式,结合目标权重以聚焦关键模态特征,通过多尺度卷积注意力模块进一步处理,提取更具判别性的特征表示。本发明有效降低传统视频异常检测中对精确标注数据的依赖;通过分层上下文建模与自适应注意力机制,增强特征表达能力与关键信息捕捉效率,为智能监控系统提供了可靠的异常检测解决方案。
技术关键词
视频异常检测方法
模态特征
多模态
文本
上下文特征
时序特征
注意力机制
多尺度
记忆单元
动态
工作特征
多实例
视觉特征提取
异常检测装置
智能监控系统
序列