摘要
本发明提供了一种基于文本的行人图像检索模型建立方法、检索方法及系统,包括:获取强正样本对、噪声样本对;获取强正样本对中的图像、文本在单个模态内的图像特征向量及表示、文本特征向量及表示;获取噪声样本中的图像在单个模态内的图像特征向量及表示;获取难样本的掩码文本特征向量;生成图像与文本的跨模态融合特征;生成硬匹配标签;生成噪声矫正匹配标签;生成难样本的掩码标签、单词‑图像匹配标签;利用损失之和L进行训练,L包括特征对比、硬匹配、噪声矫正、掩码建模、单词‑图像匹配损失。本发明矫正了根据身份标签判断图像文本对是否匹配的判定错误情况,提升模型对样本间细微差异的感知能力,提高跨模态检索准确率。
技术关键词
图像检索模型
噪声样本
文本特征向量
图像特征向量
标签
图像匹配
语义
矫正
生成噪声
掩码规则
跨模态融合特征
图文
编码器
噪声图像
二维网状结构
检索方法