摘要
本申请公开了一种多模态以图搜图方法,解决现有技术缺乏对文档图像文本信息的有效利用,难以满足复杂场景下的多模态检索需求的问题。本申请通过利用深度学习模型对输入的图像进行分类,得到图像分类结果;所述图像分类结果为文本图像或非文本图像;对于文本图像,生成多维复合特征向量;对于非文本图像,生成视觉特征向量;对于文本图像,基于所述多维复合特征向量进行检索,并融合文本语义相似度、摘要语义相似度及版式视觉相似度计算综合得分,并根据该综合得分返回检索结果;对于非文本图像,基于所述视觉特征向量的余弦相似度进行检索,并返回检索结果。
技术关键词
视觉特征提取
跨模态
文本特征向量
摘要
深度学习模型
语义
检索图像
关系型数据库
图像文本信息
图像视觉特征
多模态
BERT模型
索引
K近邻算法
稠密特征
稀疏特征