基于上下文感知的零样本多模态组合图像检索方法和装置

正文

推荐专利

申请号：CN202510626247

申请日期：2025-05-15

公开号：CN120744158A

公开日期：2025-10-03

类型：发明专利

摘要

本申请提出了一种基于上下文感知的零样本多模态组合图像检索方法和装置，涉及图像检索技术领域，包括：获取训练样本集；将训练样本集输入目标CLIP模型，获取训练样本集的目标图像嵌入和目标文本嵌入，目标CLIP模型的文本编码器和图像编码器中分别引入有可学习的语言提示嵌入和视觉提示嵌入；根据目标图像嵌入、目标文本嵌入和目标损失函数对映射网络模型进行训练，获取目标映射网络模型；根据目标CLIP模型和目标映射网络模型得到目标图像检索模型，并将参考图像和文本描述输入目标图像检索模型，得到目标查询特征；根据目标查询特征与各候选图像的图像嵌入之间的相似度输出检索结果。上述图像检索方法可以完成多模态组合图像检索任务。

技术关键词

图像嵌入图像检索方法图像检索模型查询特征文本编码器图像编码器训练样本集多模态网络视觉图像检索装置图像检索技术标记计算机存储介质存储计算机程序特征提取模块多层感知机

系统为您推荐了相关专利信息

基于多模态域泛化的跨场景高光谱图像分类方法

图像编码器多模态残差模块语义文本编码器

图像风格迁移方法、装置及设备、计算机程序产品

图像风格迁移方法图像生成模型图像嵌入人脸识别模型嵌入特征

一种输电线路隐患检测方法

文本编码器视觉特征输电线路隐患图像编码器补丁

一种个性化人物图像生成方法

人物图像生成方法文本编码器多层感知机注意力噪声图像

一种级联式由粗到细语义匹配的弱监督视觉定位方法及装置

视觉定位方法语义级联文本编码器查询特征

基于上下文感知的零样本多模态组合图像检索方法和装置

站点导航

APP 下载