摘要
本发明提供基于深度学习的多模态数据配对方法及系统,涉及数据处理技术领域,包括获取视频多帧序列与目标文本,分别提取重叠帧组集合及规范化文本序列;进行时空特征提取和文本依存关系编码,得到视频时序向量序列和文本向量序列;执行跨模态对齐搜索,构建单调匹配路径集合;计算路径上配对元素的语义及动作实体关系一致性分数,获取综合得分;基于最优路径确定视频与文本对齐关系。本方法实现了视频与文本的精准匹配,提高跨模态检索效率。
技术关键词
索引
文本
序列
句法依存关系
视频
时序
配对方法
跨模态
语义
计算机程序指令
基线
实体
网格
元素
标记
节点
配对系统
条目
数据处理技术
系统为您推荐了相关专利信息
模型训练方法
样本
大语言模型
归因
信息检索方法
智能调配技术
工地管理系统
车辆出入管理
可视化显示界面
考勤模块
报告生成方法
适配器
生成医学图像
注意力
特征提取器
交互控制方法
Unity3D引擎
场景
参数
页面