视频文本跨模态检索方法及装置

正文

推荐专利

视频文本跨模态检索方法及装置

申请号：CN202411097270

申请日期：2024-08-12

公开号：CN119166853B

公开日期：2025-09-16

类型：发明专利

摘要

本发明提供一种视频文本跨模态检索方法及装置，属于数据处理领域。该方法包括：获取目标数据集中的原始数据；其中，原始数据中包括视频数据及其对应的文本数据；对原始数据进行预处理，得到多模态特征嵌入向量；对多模态特征嵌入向量进行特征提取，得到视频特征和文本特征；其中，视频特征包括视频全局特征和视频局部特征；分别对视频全局特征、视频局部特征和文本特征进行嵌入学习，得到视频嵌入空间、视频局部关系嵌入空间和文本嵌入空间；基于视频嵌入空间、视频局部关系嵌入空间和文本嵌入空间进行视频文本跨模态检索。本发明通过联合视觉、文本以及局部关系进行空间嵌入学习，能更加精确高效地实现跨模态检索。

技术关键词

视频跨模态检索方法文本多模态特征注意力视觉关系模块实体二维卷积神经网络三维卷积神经网络动作特征数据关键帧检索装置编码器

系统为您推荐了相关专利信息

一种电力系统中算力网络的资源监控及预测系统

资源监控资源状态信息预测系统电力系统数据采集单元

基于自然语言处理的企业评估方法及评估装置

企业信用风险评估特征提取模型动态权重分配树状结构文本

一种快速语音驱动的面部视频编辑与生成方法、系统

视频编辑语音特征生成方法学生教师

一种大跨斜拉桥钢锚梁索力优化方法及系统

斜拉桥钢锚梁卷积LSTM网络累积误差索力误差预测

一种基于大语言模型的肾脏CT影像报告结构化转换方法、系统、电子设备和存储介质

不确定性量化方法结构化报告模板大语言模型转换方法肾脏

视频文本跨模态检索方法及装置

站点导航

APP 下载