摘要
本发明公开了一种基于短语匹配组合的跨模态检索方法,首先,针对每个图像输出一组网格特征来表示该图像,再映射到公共语义空间;随后,使用文本主干网络将单词序列转化为文本表示,再映射到公共语义空间;接着,引入不同层次的GCN堆叠,对不同范围内的非邻域短语进行建模,预测复杂场景下的图文语义相似度;然后,通过组合局部片段匹配、邻域短语匹配和多个非邻域短语匹配,更全面地反映图文语义相似度;最后,采用带有难负样本挖掘的铰链损失监督模型训练。本发明的方法可以很好地进行跨模态检索,在多个数据库上取得了具有竞争力的结果。
技术关键词
模态检索方法
文本
网格特征
上下文特征
邻域
语义
矩阵
参数
节点
定义
样本
图像匹配
图文
铰链
跨模态
元素
网络
视觉
系统为您推荐了相关专利信息
定位方法
定位试验装置
细化算法
交叉点
统计算法
图像分类网络
图像分类方法
视觉特征
适配器
投影模块