一种基于生成模型的跨模态图文行人检索方法

AITNT
正文
推荐专利
一种基于生成模型的跨模态图文行人检索方法
申请号:CN202510888358
申请日期:2025-06-30
公开号:CN120804356A
公开日期:2025-10-17
类型:发明专利
摘要
本发明涉及跨模态检索技术,尤其涉及一种基于生成模型的跨模态图文行人检索方法,包括:获取文本描述信息和对应的原始行人图像;基于文本描述,调用扩散生成模型生成中间图像;分别通过图像编码器和文本编码器提取原始图像特征和文本特征,构建融合语义的文本特征表示;计算图像特征与文本特征表示之间的相似度,获得图文匹配得分;引入生成中间图像作为语义桥梁,通过交叉注意力机制实现图像、文本与中间图像之间的多模态融合,得到融合后的图像和文本特征;将上述融合特征用于训练识别模型,最终输出与文本描述对应的行人图像检索结果。该方法能够提升图文对齐精度,增强对文本描述不完整场景的鲁棒性,并提高跨模态检索任务中的识别准确率。
技术关键词
图像特征向量 图像编码器 文本特征向量 文本编码器 行人检索方法 图文 融合图像特征 跨模态检索技术 文字编码器 训练识别模型 交叉注意力机制 语言编码器 细粒度特征 网络结构 融合语义 预训练模型
系统为您推荐了相关专利信息
1
一种基于多模态融合的无障碍智能服务方法和装置、电子设备
信息查询服务 盲文 模版 智能服务方法 生成语音
2
基于有监督对比学习的驾驶员分心行为检测模型构建方法及检测方法
检测模型构建方法 驾驶员分心 样本 训练检测模型 图像特征向量
3
基于生成式模型的文本信息引导的自进化目标检索方法
生成图像特征 检索方法 生成图像集合 图像块特征 文本生成图像
4
图像处理方法、装置、可读存储介质和程序产品
嵌入特征 图像分割模型 注意力 图像编码器 图像处理方法
5
一种电力系统的巡检图像识别方法、装置、设备及存储介质
图像类别 图像识别方法 巡检图像 预训练模型 原型
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号