摘要
本发明涉及一种基于分割焦点偏移修正的组合图像检索方法及系统,包括:对给定三元组的各个元素包括参考图像、目标图像、修改文本进行理解并分别生成对应的嵌入特征;其中,参考图像与目标图像使用相同的图像编码器生成嵌入特征,修改文本使用对应的文本编码器进行嵌入特征的生成;对参考图像与修改文本进行组合理解,生成多模态查询组合特征;将多模态查询组合特征与目标图像特征进行跨模态语义对齐,评估多模态查询组合特征与目标图像特征之间的语义相似度,实现组合图像检索。在主导区域分割图像的指导下,本发明实现视觉和文本数据的自适应焦点映射,缓解所挖掘的非同质性现象。
技术关键词
图像检索方法
焦点
嵌入特征
图像编码器
文本编码器
多模态
聚焦特征
视觉
跨模态
注意力
语义
三元组
图像检索系统
代表
图像分割
多层感知机
元素
输出特征
系统为您推荐了相关专利信息
数据库生成方法
大语言模型
云端服务器
风格
文本编码器
智能分析方法
文本编码器
图像编码器
跨模态
文本特征向量
情感语音转换方法
频谱特征
声学特征
韵律特征
连续小波变换分析
图像嵌入
持续学习方法
文本编码器
图像编码器
标记