一种基于场景图的图像文本检索方法与系统

正文

推荐专利

一种基于场景图的图像文本检索方法与系统

申请号：CN202410807776

申请日期：2024-06-21

公开号：CN118673166B

公开日期：2025-12-05

类型：发明专利

摘要

本发明公开了一种基于场景图的图像文本检索方法与系统。包括：输入图像和文本；对图像进行特征提取和特征融合，并构造视觉场景图，用图注意力网络学习并对其进行更新；对文本进行单词特征和语义三元组特征的提取，并构造文本场景图，用图注意力网络学习并对其进行更新，用文本场景图对视觉场景图进行增强；利用文本场景图和视觉场景图计算总体相似性分数，构建全局‑局部视觉‑文本场景图相似性度量模型，利用损失函数对模型进行训练直到函数收敛，得到收敛的模型；用户将查询对象输入模型，得到匹配结果。本发明能够充分利用图像的全局信息、图像和文本中的细粒度信息以及二者之间交互作用和多模态知识关系，提高检索准确性、拓展检索应用场景。

技术关键词

场景文本检索方法融合特征视觉特征对象图像多模态度量语义特征文本检索系统注意力关系节点 BiLSTM模型语义标签三元组损失函数

一种基于场景图的图像文本检索方法与系统

站点导航

APP 下载