摘要
本发明公开了一种基于全局与局部语义的视频‑文本检索方法,构建包括文本特征提取模块,视频特征提取模块,全局交互模块,局部交互模块和相似度融合模块的视频‑文本跨模态匹配模型,全局交互模块用于对文本特征提取模块和视频特征提取模块所提取得到的文本特征和视频特征计算得到全局相似度,局部交互模块用于基于Transformer编码器对文本的词特征和视频特征计算得到局部相似度,再由相似度融合模块将全局相似度和局部相似度融合得到视频‑文本的匹配度。本发明构建视频‑文本跨模态匹配模型,通过挖掘跨模态的潜在共享语义来优化视频‑文本检索。
技术关键词
文本检索方法
语义特征
视频特征提取
跨模态
概念
特征提取模块
文本编码器
图像编码器
词特征
视频帧
计算方法
视频编码器
标识特征
训练样本集
编码特征
系统为您推荐了相关专利信息
遥感图像分割方法
纹理特征提取
注意力
多层次特征
高层语义特征
多模态数据融合
无人机电机
故障诊断方法
多层特征融合
注意力机制
深度神经网络模型
智能识别方法
文本特征向量
图像特征向量
联合损失函数
人体活动识别方法
跨模态
编码器模块
无监督对抗
数据