一种基于生成模型的跨模态图文行人检索方法

正文

推荐专利

申请号：CN202510888358

申请日期：2025-06-30

公开号：CN120804356A

公开日期：2025-10-17

类型：发明专利

摘要

本发明涉及跨模态检索技术，尤其涉及一种基于生成模型的跨模态图文行人检索方法，包括：获取文本描述信息和对应的原始行人图像；基于文本描述，调用扩散生成模型生成中间图像；分别通过图像编码器和文本编码器提取原始图像特征和文本特征，构建融合语义的文本特征表示；计算图像特征与文本特征表示之间的相似度，获得图文匹配得分；引入生成中间图像作为语义桥梁，通过交叉注意力机制实现图像、文本与中间图像之间的多模态融合，得到融合后的图像和文本特征；将上述融合特征用于训练识别模型，最终输出与文本描述对应的行人图像检索结果。该方法能够提升图文对齐精度，增强对文本描述不完整场景的鲁棒性，并提高跨模态检索任务中的识别准确率。

技术关键词

图像特征向量图像编码器文本特征向量文本编码器行人检索方法图文融合图像特征跨模态检索技术文字编码器训练识别模型交叉注意力机制语言编码器细粒度特征网络结构融合语义预训练模型

系统为您推荐了相关专利信息

一种基于多模态融合的无障碍智能服务方法和装置、电子设备

信息查询服务盲文模版智能服务方法生成语音

基于有监督对比学习的驾驶员分心行为检测模型构建方法及检测方法

检测模型构建方法驾驶员分心样本训练检测模型图像特征向量

基于生成式模型的文本信息引导的自进化目标检索方法

生成图像特征检索方法生成图像集合图像块特征文本生成图像

图像处理方法、装置、可读存储介质和程序产品

嵌入特征图像分割模型注意力图像编码器图像处理方法

一种电力系统的巡检图像识别方法、装置、设备及存储介质

图像类别图像识别方法巡检图像预训练模型原型

一种基于生成模型的跨模态图文行人检索方法

站点导航

APP 下载