摘要
本发明提供一种视频文本跨模态检索方法及装置,属于数据处理领域。该方法包括:获取目标数据集中的原始数据;其中,原始数据中包括视频数据及其对应的文本数据;对原始数据进行预处理,得到多模态特征嵌入向量;对多模态特征嵌入向量进行特征提取,得到视频特征和文本特征;其中,视频特征包括视频全局特征和视频局部特征;分别对视频全局特征、视频局部特征和文本特征进行嵌入学习,得到视频嵌入空间、视频局部关系嵌入空间和文本嵌入空间;基于视频嵌入空间、视频局部关系嵌入空间和文本嵌入空间进行视频文本跨模态检索。本发明通过联合视觉、文本以及局部关系进行空间嵌入学习,能更加精确高效地实现跨模态检索。
技术关键词
视频
跨模态检索方法
文本
多模态特征
注意力
视觉
关系
模块
实体
二维卷积神经网络
三维卷积神经网络
动作特征
数据
关键帧
检索装置
编码器
系统为您推荐了相关专利信息
资源监控
资源状态信息
预测系统
电力系统
数据采集单元
企业信用风险评估
特征提取模型
动态权重分配
树状结构
文本
斜拉桥钢锚梁
卷积LSTM网络
累积误差
索力
误差预测
不确定性量化方法
结构化报告模板
大语言模型
转换方法
肾脏