摘要
本申请提出了一种基于上下文感知的零样本多模态组合图像检索方法和装置,涉及图像检索技术领域,包括:获取训练样本集;将训练样本集输入目标CLIP模型,获取训练样本集的目标图像嵌入和目标文本嵌入,目标CLIP模型的文本编码器和图像编码器中分别引入有可学习的语言提示嵌入和视觉提示嵌入;根据目标图像嵌入、目标文本嵌入和目标损失函数对映射网络模型进行训练,获取目标映射网络模型;根据目标CLIP模型和目标映射网络模型得到目标图像检索模型,并将参考图像和文本描述输入目标图像检索模型,得到目标查询特征;根据目标查询特征与各候选图像的图像嵌入之间的相似度输出检索结果。上述图像检索方法可以完成多模态组合图像检索任务。
技术关键词
图像嵌入
图像检索方法
图像检索模型
查询特征
文本编码器
图像编码器
训练样本集
多模态
网络
视觉
图像检索装置
图像检索技术
标记
计算机存储介质
存储计算机程序
特征提取模块
多层感知机
系统为您推荐了相关专利信息
图像风格迁移方法
图像生成模型
图像嵌入
人脸识别模型
嵌入特征
文本编码器
视觉特征
输电线路隐患
图像编码器
补丁
人物图像生成方法
文本编码器
多层感知机
注意力
噪声图像