摘要
本发明公开了一种语义增强及多层次对齐的视频文本检索方法、系统和设备,涉及数据检索领域。包括以下步骤:获取原始文本‑视频数据对数据集;使用外部知识检索模块检索与原始视频和文本相似的外部文本和视频;使用跨模态信息融合模块对互补信息进行特征融合,提取强化后的视频和文本的特征表示;利用模态间和模态内相似性约束,消除语义鸿沟实现精准检索;将查询文本按词性进行分解并编码,同时对视频帧进行编码并执行聚类操作,分别获取文本和视频的全局、动作和实体编码特征;利用多层次对齐实现视频和文本间相似性度量。本发明通过外部知识实现对视频文本的语义增强,同时使用多层次对齐策略实现文本细节和复杂视觉语义间信息交互,从而提升视频文本检索精度。
技术关键词
文本检索方法
多层次
语义
文本编码器
视频编码器
跨模态
编码特征
视频帧特征
实体
聚类
动作特征
数据
度量
样本
表达式
索引
系统为您推荐了相关专利信息
图像编解码
数据
通信方法
语义特征提取
语义知识库
视觉特征提取
建模系统
高维向量空间
文本编码器
语言建模方法
同步搜索方法
特征数据库
隐性特征
多平台
关键词
社交网络影响力
社交媒体平台
分子模型
情感分析模型
多层次指标体系