摘要
本发明公开了一种基于局部生成双驱动的图像文本跨模态检索模型、方法以及计算机设备,包括:S1,对训练数据中成对的原始图像和文本使用编码器分别进行特征提取,得到原始图像和文本的全局特征和局部特征;S2,输入图像和文本的全局特征、局部特征,通过局部驱动语义补全模块筛选得到全局特征忽略的局部细节特征,然后将局部细节特征与全局特征融合,得到语义补全后的融合特征;S3,输入文本,通过生成驱动语义转换模块得到具有文本语义信息的生成图像特征;S4,计算S1得到的图像全局特征和文本全局特征、S2得到的图像融合特征和文本融合特征、S3得到的生成图像特征和图像全局特征以及文本全局特征之间的相似性并利用对比损失函数进行训练。
技术关键词
图像全局特征
局部细节特征
融合特征
生成图像特征
图像局部特征
跨模态检索方法
图像编码器
语义
文本编码器
计算机设备
融合全局特征
多层感知网络
全局特征融合
序列
图像生成模型
标记
图像嵌入