一种多模态以图搜图方法

正文

推荐专利

一种多模态以图搜图方法

申请号：CN202510914384

申请日期：2025-07-02

公开号：CN120804355A

公开日期：2025-10-17

类型：发明专利

摘要

本申请公开了一种多模态以图搜图方法，解决现有技术缺乏对文档图像文本信息的有效利用，难以满足复杂场景下的多模态检索需求的问题。本申请通过利用深度学习模型对输入的图像进行分类，得到图像分类结果；所述图像分类结果为文本图像或非文本图像；对于文本图像，生成多维复合特征向量；对于非文本图像，生成视觉特征向量；对于文本图像，基于所述多维复合特征向量进行检索，并融合文本语义相似度、摘要语义相似度及版式视觉相似度计算综合得分，并根据该综合得分返回检索结果；对于非文本图像，基于所述视觉特征向量的余弦相似度进行检索，并返回检索结果。

技术关键词

视觉特征提取跨模态文本特征向量摘要深度学习模型语义检索图像关系型数据库图像文本信息图像视觉特征多模态 BERT模型索引 K近邻算法稠密特征稀疏特征

一种多模态以图搜图方法

站点导航

APP 下载