基于跨模态一致性和时序多粒度协作的视听事件定位系统和方法

正文

推荐专利

申请号：CN202411661256

申请日期：2024-11-20

公开号：CN119152337B

公开日期：2025-02-11

类型：发明专利

摘要

本发明公开了基于跨模态一致性和时序多粒度协作的视听事件定位系统和方法，涉及计算机视觉技术领域，单模态特征编码模块获取视频和音频的单模态特征；跨模态一致性协作模块由多个多模态协作层堆叠构成，每个多模态协作层均包括视觉引导模块和音频引导模块，视觉引导模块和音频引导模块均由跨模态交互分支和时序一致性分支构成，将每个多模态协作层输出的视频特征和音频特征进行拼接得到多粒度时序特征；时序多粒度协作模块将多粒度时序特征进行从粗粒度到细粒度的时序协作和从细粒度到粗粒度的时序协作；解码模块通过时序双向协作增强后的特征预测事件类别和事件时间。本发明可用于长序列的视听视频的处理、分析和定位。

技术关键词

模态特征跨模态视听音频特征时序特征定位系统多模态细粒度特征解码模块编码模块事件定位方法音视频分支计算机视觉技术更新模型参数

系统为您推荐了相关专利信息

基于AI个性化产后康复医美评估系统及方法

多通路语义融合神经网络生物特征分析技术模态特征

场景异常检测方法、装置、存储介质及计算机设备

融合特征可见光图像场景三维卷积神经网络异常检测方法

一种基于多模态融合的神经外科可视化手术导航系统

可视化手术导航系统结构相似性算法图像校正子模块

基于增强现实的无标记城市规划展示系统及方法

城市规划展示系统建筑物 Unity3D引擎增量数据同步技术三维点云模型

一种基于方言语音生成图片的方法及装置

文本交互式学习声学特征多模态特征融合语音

基于跨模态一致性和时序多粒度协作的视听事件定位系统和方法

站点导航

APP 下载