摘要
本发明属于计算机视觉领域,涉及一种基于语义消歧义的图文检索方法、存储介质及装置,包括:获取待检索的文本词,采用Bi‑GRU模型和Bert模型对文本数据进行编码;采用GAT网络对编码后的文本进行歧义词更新;采用相关层计算更新后的每个歧义词之间的意义相似度,根据意义相似度生成感知意义的权重分布;根据权重分布将每个歧义词嵌入原始文本中,得到新的歧义词词语表示;将新的歧义词词语表示与图像区域特征进行对齐;对对齐后的词语和图像进行匹配;本发明设计了一种图像‑文本对齐的感知机制,实现了语义消歧与图文检索的联合优化。实验表明,该方法显著提高了跨模态图文检索的准确性、鲁棒性和实用性。
技术关键词
图文检索方法
文本
语义
GRU模型
词语
Softmax函数
检索装置
图像
编码
存储计算机程序
图片
存储器
计算机视觉
网络
数据
标签
处理器
可读存储介质
鲁棒性