基于音频重要性感知的多粒度融合视频片段检索方法

正文

推荐专利

申请号：CN202510752246

申请日期：2025-06-06

公开号：CN120256674B

公开日期：2025-08-12

类型：发明专利

摘要

本发明公开了一种基于音频重要性感知的多粒度融合视频片段检索方法，属于多模态视频片段检索技术领域，其包括：构建其包含三个用于检索的视觉分支、融合分支以及音频分支，在获得视觉‑文本融合特征和音频‑文本融合特征基础上，通过预测音频重要性分数后，基于重要性分数对两融合特征进行多粒度融合得到总融合特征后预测第三视频片段检索结果，并在训练时，引入了检索损失、音频重要性预测损失、分支之间的知识蒸馏损失、以及融合特征之间显著性对比损失，这样训练使得训练后的每个分支都能显著提升检索精度，适应音频模态的不确定性，提升机线索鲁棒性，且增强了单模态性能，提升系统实用性。

技术关键词

融合特征视频片段检索方法分支音频特征多层感知机语义特征文本编码器上下文查询子模块音频编码器上下文特征注意力事件特征卷积神经网络提取视觉特征

系统为您推荐了相关专利信息

慢性疾病预后方法、模型、装置、计算机设备及存储介质

深度学习特征组学特征预后方法疾病预后模型融合特征

一种双分支噪声抽取抑制下的标签带噪表情识别方法

分类识别模型表情识别方法噪声标签分支面部表情识别

换流阀的故障检测方法、装置、计算机设备和存储介质

可见光图像输出特征融合特征特征提取网络数据

一种电力设备招投标方法、装置及计算机可读存储介质

电力设备参数招投标方法编码器模块多层感知机语义特征

遥感视频的多运动目标跟踪方法及存储介质

时空融合特征跟踪方法序列静态特征协方差矩阵

基于音频重要性感知的多粒度融合视频片段检索方法

站点导航

APP 下载