基于跨模态一致性和时序多粒度协作的视听事件定位系统和方法

AITNT
正文
推荐专利
基于跨模态一致性和时序多粒度协作的视听事件定位系统和方法
申请号:CN202411661256
申请日期:2024-11-20
公开号:CN119152337B
公开日期:2025-02-11
类型:发明专利
摘要
本发明公开了基于跨模态一致性和时序多粒度协作的视听事件定位系统和方法,涉及计算机视觉技术领域,单模态特征编码模块获取视频和音频的单模态特征;跨模态一致性协作模块由多个多模态协作层堆叠构成,每个多模态协作层均包括视觉引导模块和音频引导模块,视觉引导模块和音频引导模块均由跨模态交互分支和时序一致性分支构成,将每个多模态协作层输出的视频特征和音频特征进行拼接得到多粒度时序特征;时序多粒度协作模块将多粒度时序特征进行从粗粒度到细粒度的时序协作和从细粒度到粗粒度的时序协作;解码模块通过时序双向协作增强后的特征预测事件类别和事件时间。本发明可用于长序列的视听视频的处理、分析和定位。
技术关键词
模态特征 跨模态 视听 音频特征 时序特征 定位系统 多模态 细粒度特征 解码模块 编码模块 事件定位方法 音视频 分支 计算机视觉技术 更新模型参数
系统为您推荐了相关专利信息
1
基于AI个性化产后康复医美评估系统及方法
多通路 语义 融合神经网络 生物特征分析技术 模态特征
2
场景异常检测方法、装置、存储介质及计算机设备
融合特征 可见光图像 场景 三维卷积神经网络 异常检测方法
3
一种基于多模态融合的神经外科可视化手术导航系统
可视化手术 导航系统 结构相似性算法 图像校正 子模块
4
基于增强现实的无标记城市规划展示系统及方法
城市规划展示系统 建筑物 Unity3D引擎 增量数据同步技术 三维点云模型
5
一种基于方言语音生成图片的方法及装置
文本 交互式学习 声学特征 多模态特征融合 语音
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号