基于文本的行人图像检索模型建立方法、检索方法及系统

正文

推荐专利

申请号：CN202410946657

申请日期：2024-07-16

公开号：CN118797092A

公开日期：2024-10-18

类型：发明专利

摘要

本发明提供了一种基于文本的行人图像检索模型建立方法、检索方法及系统，包括：获取强正样本对、噪声样本对；获取强正样本对中的图像、文本在单个模态内的图像特征向量及表示、文本特征向量及表示；获取噪声样本中的图像在单个模态内的图像特征向量及表示；获取难样本的掩码文本特征向量；生成图像与文本的跨模态融合特征；生成硬匹配标签；生成噪声矫正匹配标签；生成难样本的掩码标签、单词‑图像匹配标签；利用损失之和L进行训练，L包括特征对比、硬匹配、噪声矫正、掩码建模、单词‑图像匹配损失。本发明矫正了根据身份标签判断图像文本对是否匹配的判定错误情况，提升模型对样本间细微差异的感知能力，提高跨模态检索准确率。

技术关键词

图像检索模型噪声样本文本特征向量图像特征向量标签图像匹配语义矫正生成噪声掩码规则跨模态融合特征图文编码器噪声图像二维网状结构检索方法

基于文本的行人图像检索模型建立方法、检索方法及系统

站点导航

APP 下载