基于上下文感知的零样本多模态组合图像检索方法和装置

AITNT
正文
推荐专利
基于上下文感知的零样本多模态组合图像检索方法和装置
申请号:CN202510626247
申请日期:2025-05-15
公开号:CN120744158A
公开日期:2025-10-03
类型:发明专利
摘要
本申请提出了一种基于上下文感知的零样本多模态组合图像检索方法和装置,涉及图像检索技术领域,包括:获取训练样本集;将训练样本集输入目标CLIP模型,获取训练样本集的目标图像嵌入和目标文本嵌入,目标CLIP模型的文本编码器和图像编码器中分别引入有可学习的语言提示嵌入和视觉提示嵌入;根据目标图像嵌入、目标文本嵌入和目标损失函数对映射网络模型进行训练,获取目标映射网络模型;根据目标CLIP模型和目标映射网络模型得到目标图像检索模型,并将参考图像和文本描述输入目标图像检索模型,得到目标查询特征;根据目标查询特征与各候选图像的图像嵌入之间的相似度输出检索结果。上述图像检索方法可以完成多模态组合图像检索任务。
技术关键词
图像嵌入 图像检索方法 图像检索模型 查询特征 文本编码器 图像编码器 训练样本集 多模态 网络 视觉 图像检索装置 图像检索技术 标记 计算机存储介质 存储计算机程序 特征提取模块 多层感知机
系统为您推荐了相关专利信息
1
基于多模态域泛化的跨场景高光谱图像分类方法
图像编码器 多模态 残差模块 语义 文本编码器
2
图像风格迁移方法、装置及设备、计算机程序产品
图像风格迁移方法 图像生成模型 图像嵌入 人脸识别模型 嵌入特征
3
一种输电线路隐患检测方法
文本编码器 视觉特征 输电线路隐患 图像编码器 补丁
4
一种个性化人物图像生成方法
人物图像生成方法 文本编码器 多层感知机 注意力 噪声图像
5
一种级联式由粗到细语义匹配的弱监督视觉定位方法及装置
视觉定位方法 语义 级联 文本编码器 查询特征
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号