基于全局与局部语义的视频-文本检索方法

正文

推荐专利

基于全局与局部语义的视频-文本检索方法

申请号：CN202411020426

申请日期：2024-07-29

公开号：CN118916520A

公开日期：2024-11-08

类型：发明专利

摘要

本发明公开了一种基于全局与局部语义的视频‑文本检索方法，构建包括文本特征提取模块，视频特征提取模块，全局交互模块，局部交互模块和相似度融合模块的视频‑文本跨模态匹配模型，全局交互模块用于对文本特征提取模块和视频特征提取模块所提取得到的文本特征和视频特征计算得到全局相似度，局部交互模块用于基于Transformer编码器对文本的词特征和视频特征计算得到局部相似度，再由相似度融合模块将全局相似度和局部相似度融合得到视频‑文本的匹配度。本发明构建视频‑文本跨模态匹配模型，通过挖掘跨模态的潜在共享语义来优化视频‑文本检索。

技术关键词

文本检索方法语义特征视频特征提取跨模态概念特征提取模块文本编码器图像编码器词特征视频帧计算方法视频编码器标识特征训练样本集编码特征

系统为您推荐了相关专利信息

一种结合无额外参数相似性注意力的遥感图像分割方法

遥感图像分割方法纹理特征提取注意力多层次特征高层语义特征

一种基于多模态数据融合的无人机电机故障诊断方法

多模态数据融合无人机电机故障诊断方法多层特征融合注意力机制

一种基于深度神经网络模型的票据智能识别方法

深度神经网络模型智能识别方法文本特征向量图像特征向量联合损失函数

一种基于双向跨模态注意机制的人体活动识别方法

人体活动识别方法跨模态编码器模块无监督对抗数据

通行区域预测方法、电子设备及车辆

区域预测方法车辆周边语义特征静态特征数据

基于全局与局部语义的视频-文本检索方法

站点导航

APP 下载