一种基于局部生成双驱动的图像文本跨模态检索模型、方法以及计算机设备

正文

推荐专利

申请号：CN202410919105

申请日期：2024-07-10

公开号：CN118823538A

公开日期：2024-10-22

类型：发明专利

摘要

本发明公开了一种基于局部生成双驱动的图像文本跨模态检索模型、方法以及计算机设备，包括：S1，对训练数据中成对的原始图像和文本使用编码器分别进行特征提取，得到原始图像和文本的全局特征和局部特征；S2，输入图像和文本的全局特征、局部特征，通过局部驱动语义补全模块筛选得到全局特征忽略的局部细节特征，然后将局部细节特征与全局特征融合，得到语义补全后的融合特征；S3，输入文本，通过生成驱动语义转换模块得到具有文本语义信息的生成图像特征；S4，计算S1得到的图像全局特征和文本全局特征、S2得到的图像融合特征和文本融合特征、S3得到的生成图像特征和图像全局特征以及文本全局特征之间的相似性并利用对比损失函数进行训练。

技术关键词

图像全局特征局部细节特征融合特征生成图像特征图像局部特征跨模态检索方法图像编码器语义文本编码器计算机设备融合全局特征多层感知网络全局特征融合序列图像生成模型标记图像嵌入

一种基于局部生成双驱动的图像文本跨模态检索模型、方法以及计算机设备

站点导航

APP 下载