摘要
本发明涉及跨模态检索技术,尤其涉及一种基于生成模型的跨模态图文行人检索方法,包括:获取文本描述信息和对应的原始行人图像;基于文本描述,调用扩散生成模型生成中间图像;分别通过图像编码器和文本编码器提取原始图像特征和文本特征,构建融合语义的文本特征表示;计算图像特征与文本特征表示之间的相似度,获得图文匹配得分;引入生成中间图像作为语义桥梁,通过交叉注意力机制实现图像、文本与中间图像之间的多模态融合,得到融合后的图像和文本特征;将上述融合特征用于训练识别模型,最终输出与文本描述对应的行人图像检索结果。该方法能够提升图文对齐精度,增强对文本描述不完整场景的鲁棒性,并提高跨模态检索任务中的识别准确率。
技术关键词
图像特征向量
图像编码器
文本特征向量
文本编码器
行人检索方法
图文
融合图像特征
跨模态检索技术
文字编码器
训练识别模型
交叉注意力机制
语言编码器
细粒度特征
网络结构
融合语义
预训练模型
系统为您推荐了相关专利信息
检测模型构建方法
驾驶员分心
样本
训练检测模型
图像特征向量
生成图像特征
检索方法
生成图像集合
图像块特征
文本生成图像
嵌入特征
图像分割模型
注意力
图像编码器
图像处理方法
图像类别
图像识别方法
巡检图像
预训练模型
原型