摘要
本发明公开了一种融合局部和全局语义的图像文本匹配算法,属于多媒体检索的跨模态检索技术领域。本发明通过特征提取算法分别把图像和文本特征提取出来;通过视觉上下文编码模块进一步的挖掘图像中局部特征之间的关系以得到上下文关系及更多的语义信息,然后进行图像文本的全局和局部相似度计算;最后,融合全局和局部图像文本相似度从而形成一个多粒度融合网络以提高图文匹配的准确度。本发明的图文匹配算法更有效,不仅保留了图像的局部细粒度信息,还保留了其全部的背景信息,进一步提高了图像文本匹配的准确率,具有良好的应用前景和可观的市场价值。
技术关键词
文本
特征提取算法
图像全局特征
图像局部特征
注意力机制
编码模块
重构
语义
融合全局
图文
检索技术
矩阵
元素
视觉
关系
多媒体
参数