基于全局与局部语义的视频-文本检索方法

AITNT
正文
推荐专利
基于全局与局部语义的视频-文本检索方法
申请号:CN202411020426
申请日期:2024-07-29
公开号:CN118916520A
公开日期:2024-11-08
类型:发明专利
摘要
本发明公开了一种基于全局与局部语义的视频‑文本检索方法,构建包括文本特征提取模块,视频特征提取模块,全局交互模块,局部交互模块和相似度融合模块的视频‑文本跨模态匹配模型,全局交互模块用于对文本特征提取模块和视频特征提取模块所提取得到的文本特征和视频特征计算得到全局相似度,局部交互模块用于基于Transformer编码器对文本的词特征和视频特征计算得到局部相似度,再由相似度融合模块将全局相似度和局部相似度融合得到视频‑文本的匹配度。本发明构建视频‑文本跨模态匹配模型,通过挖掘跨模态的潜在共享语义来优化视频‑文本检索。
技术关键词
文本检索方法 语义特征 视频特征提取 跨模态 概念 特征提取模块 文本编码器 图像编码器 词特征 视频帧 计算方法 视频编码器 标识特征 训练样本集 编码特征
系统为您推荐了相关专利信息
1
一种结合无额外参数相似性注意力的遥感图像分割方法
遥感图像分割方法 纹理特征提取 注意力 多层次特征 高层语义特征
2
一种基于多模态数据融合的无人机电机故障诊断方法
多模态数据融合 无人机电机 故障诊断方法 多层特征融合 注意力机制
3
一种基于深度神经网络模型的票据智能识别方法
深度神经网络模型 智能识别方法 文本特征向量 图像特征向量 联合损失函数
4
一种基于双向跨模态注意机制的人体活动识别方法
人体活动识别方法 跨模态 编码器模块 无监督对抗 数据
5
通行区域预测方法、电子设备及车辆
区域预测方法 车辆周边 语义特征 静态特征 数据
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号