摘要
本申请提供一种基于图文匹配的视频片段检索方法、装置、设备及介质,涉及视频检索技术领域。本申请方法通过将视频数据切分成多个视频块并分别提取特征,增强了对视频内容的细粒度理解,从而提高了检索的准确性。利用特征编码模型对检索文本和视频块进行编码处理,加深了文本描述与视频内容之间的语义关联,从而提升匹配的准确性。通过多头多尺度检测算法对视频块进行检索,可以多维度地评估视频块与文本的匹配度,提高了匹配的准确性。通过对比学习算法计算视频块与文本的特征相似度,并选择相似度最高的视频块作为目标视频片段,能够确保最终检索结果的精确度,从而显著提升了视频片段检索的准确性和效率。
技术关键词
视频片段检索方法
多尺度检测算法
视频块
特征编码模型
文本
加权损失函数
图文
标签
学习算法
注意力
长度尺寸
检索装置
视频检索技术
前馈神经网络
计算机设备
可读存储介质
加权算法
系统为您推荐了相关专利信息
药物不良反应事件
识别方法
实体
大语言模型
概念
细粒度特征
融合特征
多粒度特征
编码器训练
图文
网络设备配置
管理方法
实时数据
语义
配置文件管理
建筑能耗预测方法
大语言模型
多头注意力机制
建筑能耗预测系统
生成时间序列数据