摘要
本发明公开了一种基于音频重要性感知的多粒度融合视频片段检索方法,属于多模态视频片段检索技术领域,其包括:构建其包含三个用于检索的视觉分支、融合分支以及音频分支,在获得视觉‑文本融合特征和音频‑文本融合特征基础上,通过预测音频重要性分数后,基于重要性分数对两融合特征进行多粒度融合得到总融合特征后预测第三视频片段检索结果,并在训练时,引入了检索损失、音频重要性预测损失、分支之间的知识蒸馏损失、以及融合特征之间显著性对比损失,这样训练使得训练后的每个分支都能显著提升检索精度,适应音频模态的不确定性,提升机线索鲁棒性,且增强了单模态性能,提升系统实用性。
技术关键词
融合特征
视频片段检索方法
分支
音频特征
多层感知机
语义特征
文本编码器
上下文查询
子模块
音频编码器
上下文特征
注意力
事件特征
卷积神经网络提取
视觉特征
系统为您推荐了相关专利信息
深度学习特征
组学特征
预后方法
疾病预后模型
融合特征
分类识别模型
表情识别方法
噪声标签
分支
面部表情识别
可见光图像
输出特征
融合特征
特征提取网络
数据
电力设备参数
招投标方法
编码器模块
多层感知机
语义特征
时空融合特征
跟踪方法
序列
静态特征
协方差矩阵