摘要
本发明公开了一种基于多尺度特征集合提取与对齐的图文检索方法,使用预训练模型对文本和图像数据进行初步编码。使用多次基于自注意力机制的下采样操作完成多尺度特征集合提取,丰富了特征集合的粒度层次;通过基于槽注意力机制的特征选择模块筛选出来自下采样路径由低到高的多尺度特征,从而获得更显著的细粒度、多层次特征集合来表征图像以及文本数据;使用高斯分布对图文特征的余弦相似度进行建模,迭代更新高斯分布模型,为不同置信度的余弦相似度设置不同的权重,获取单个特征与另一模态特征集合之间的相似度;通过自注意力机制,获取模态内不同特征的得分,作为权重参与计算图像文本对的相似度。本发明能够解决真实场景下的图文检索问题。
技术关键词
图文检索方法
多尺度特征
注意力机制
高斯分布模型
矩阵
特征选择
多尺度局部特征
对齐模块
图像局部特征
文本特征向量
累积分布函数
多层次特征
预训练模型
多层感知机
模态特征