基于音频重要性感知的多粒度融合视频片段检索方法

AITNT
正文
推荐专利
基于音频重要性感知的多粒度融合视频片段检索方法
申请号:CN202510752246
申请日期:2025-06-06
公开号:CN120256674B
公开日期:2025-08-12
类型:发明专利
摘要
本发明公开了一种基于音频重要性感知的多粒度融合视频片段检索方法,属于多模态视频片段检索技术领域,其包括:构建其包含三个用于检索的视觉分支、融合分支以及音频分支,在获得视觉‑文本融合特征和音频‑文本融合特征基础上,通过预测音频重要性分数后,基于重要性分数对两融合特征进行多粒度融合得到总融合特征后预测第三视频片段检索结果,并在训练时,引入了检索损失、音频重要性预测损失、分支之间的知识蒸馏损失、以及融合特征之间显著性对比损失,这样训练使得训练后的每个分支都能显著提升检索精度,适应音频模态的不确定性,提升机线索鲁棒性,且增强了单模态性能,提升系统实用性。
技术关键词
融合特征 视频片段检索方法 分支 音频特征 多层感知机 语义特征 文本编码器 上下文查询 子模块 音频编码器 上下文特征 注意力 事件特征 卷积神经网络提取 视觉特征
系统为您推荐了相关专利信息
1
慢性疾病预后方法、模型、装置、计算机设备及存储介质
深度学习特征 组学特征 预后方法 疾病预后模型 融合特征
2
一种双分支噪声抽取抑制下的标签带噪表情识别方法
分类识别模型 表情识别方法 噪声标签 分支 面部表情识别
3
换流阀的故障检测方法、装置、计算机设备和存储介质
可见光图像 输出特征 融合特征 特征提取网络 数据
4
一种电力设备招投标方法、装置及计算机可读存储介质
电力设备参数 招投标方法 编码器模块 多层感知机 语义特征
5
遥感视频的多运动目标跟踪方法及存储介质
时空融合特征 跟踪方法 序列 静态特征 协方差矩阵
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号