摘要
本发明公开了基于跨模态一致性和时序多粒度协作的视听事件定位系统和方法,涉及计算机视觉技术领域,单模态特征编码模块获取视频和音频的单模态特征;跨模态一致性协作模块由多个多模态协作层堆叠构成,每个多模态协作层均包括视觉引导模块和音频引导模块,视觉引导模块和音频引导模块均由跨模态交互分支和时序一致性分支构成,将每个多模态协作层输出的视频特征和音频特征进行拼接得到多粒度时序特征;时序多粒度协作模块将多粒度时序特征进行从粗粒度到细粒度的时序协作和从细粒度到粗粒度的时序协作;解码模块通过时序双向协作增强后的特征预测事件类别和事件时间。本发明可用于长序列的视听视频的处理、分析和定位。
技术关键词
模态特征
跨模态
视听
音频特征
时序特征
定位系统
多模态
细粒度特征
解码模块
编码模块
事件定位方法
音视频
分支
计算机视觉技术
更新模型参数
系统为您推荐了相关专利信息
多通路
语义
融合神经网络
生物特征分析技术
模态特征
融合特征
可见光图像
场景
三维卷积神经网络
异常检测方法
可视化手术
导航系统
结构相似性算法
图像校正
子模块
城市规划展示系统
建筑物
Unity3D引擎
增量数据同步技术
三维点云模型