摘要
本发明提出了面向文档的标准要素与应用场景语义集成多模态检索方法,属于信息检索技术领域;包括:获得源文档的不同模态数据,并对源文档不同模态数据进行各个方向的特征提取,对提取以后的源文档特征融合成统一语义表征向量;并提取目标文档的各个方向的特征信息,并融合成目标文档的统一语义表征向量;通过多模态对齐算法源文档与目标文档的多尺度相似度,生成多个待选匹配结果;通过选择总相似度最大的待选匹配结果得到最终匹配结果;该方法旨在通过语义建模技术,实现文本、图像和结构化元数据的协同检索;在相似度计算时,不但充分考虑了源文档和目标文档的总相似度,还使得单方向的相似度保持在一定的水平,匹配的结果更加符合真实结果。
技术关键词
多模态检索方法
语义
数据嵌入
场景
视觉特征
文本编码器
对齐模块
序列
图像
交叉注意力机制
多尺度特征提取
信息检索技术
训练语言模型
文档特征
模版
系统为您推荐了相关专利信息
生成对抗网络
透明度
编辑方法
编码向量
图像编码器
关键词
数据
长短期记忆网络
自然语言
构建知识图谱