摘要
本发明公开了一种基于场景图的图像文本检索方法与系统。包括:输入图像和文本;对图像进行特征提取和特征融合,并构造视觉场景图,用图注意力网络学习并对其进行更新;对文本进行单词特征和语义三元组特征的提取,并构造文本场景图,用图注意力网络学习并对其进行更新,用文本场景图对视觉场景图进行增强;利用文本场景图和视觉场景图计算总体相似性分数,构建全局‑局部视觉‑文本场景图相似性度量模型,利用损失函数对模型进行训练直到函数收敛,得到收敛的模型;用户将查询对象输入模型,得到匹配结果。本发明能够充分利用图像的全局信息、图像和文本中的细粒度信息以及二者之间交互作用和多模态知识关系,提高检索准确性、拓展检索应用场景。
技术关键词
场景
文本检索方法
融合特征
视觉特征
对象
图像
多模态
度量
语义特征
文本检索系统
注意力
关系
节点
BiLSTM模型
语义标签
三元组损失函数