摘要
本发明提供了一种基于生成式模型的文本信息引导的自进化目标检索方法,对输入图片和文本进行细粒度信息提取过程,采用跨模态生成式模型,进行文本信息的模态转化,生成原始文本与每一个短语相应的图像信息,将生成图像与输入图像进行多粒度特征动态匹配与对齐,根据匹配结果排序,达到目标检索的目的。本发明将跨模态的目标检索任务转化为了同模态的检索匹配任务,利用生成式模型将输入文本信息转化为视觉图像,显著拉近了双方的语义距离,提高了模型的检索能力,生成式模型可以采用任何种类的生成式模型,实现了即插即用,可以随着生成式模型和图像编码器的不断迭代实现效果的提升,拥有自进化的特性。
技术关键词
生成图像特征
检索方法
生成图像集合
图像块特征
文本生成图像
视觉图像信息
图像编码器
图像分割方式
跨模态
多粒度特征
图像特征向量
图像分割方法
支持自定义
可读存储介质
图片
对齐方法
图像匹配