视频文本跨模态检索方法及装置

AITNT
正文
推荐专利
视频文本跨模态检索方法及装置
申请号:CN202411097270
申请日期:2024-08-12
公开号:CN119166853B
公开日期:2025-09-16
类型:发明专利
摘要
本发明提供一种视频文本跨模态检索方法及装置,属于数据处理领域。该方法包括:获取目标数据集中的原始数据;其中,原始数据中包括视频数据及其对应的文本数据;对原始数据进行预处理,得到多模态特征嵌入向量;对多模态特征嵌入向量进行特征提取,得到视频特征和文本特征;其中,视频特征包括视频全局特征和视频局部特征;分别对视频全局特征、视频局部特征和文本特征进行嵌入学习,得到视频嵌入空间、视频局部关系嵌入空间和文本嵌入空间;基于视频嵌入空间、视频局部关系嵌入空间和文本嵌入空间进行视频文本跨模态检索。本发明通过联合视觉、文本以及局部关系进行空间嵌入学习,能更加精确高效地实现跨模态检索。
技术关键词
视频 跨模态检索方法 文本 多模态特征 注意力 视觉 关系 模块 实体 二维卷积神经网络 三维卷积神经网络 动作特征 数据 关键帧 检索装置 编码器
系统为您推荐了相关专利信息
1
一种电力系统中算力网络的资源监控及预测系统
资源监控 资源状态信息 预测系统 电力系统 数据采集单元
2
基于自然语言处理的企业评估方法及评估装置
企业信用风险评估 特征提取模型 动态权重分配 树状结构 文本
3
一种快速语音驱动的面部视频编辑与生成方法、系统
视频编辑 语音特征 生成方法 学生 教师
4
一种大跨斜拉桥钢锚梁索力优化方法及系统
斜拉桥钢锚梁 卷积LSTM网络 累积误差 索力 误差预测
5
一种基于大语言模型的肾脏CT影像报告结构化转换方法、系统、电子设备和存储介质
不确定性量化方法 结构化报告模板 大语言模型 转换方法 肾脏
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号