基于掩码去噪的文本到图像行人检索方法、装置及介质

正文

推荐专利

申请号：CN202511277849

申请日期：2025-09-09

公开号：CN120804351B

公开日期：2025-12-16

类型：发明专利

摘要

本申请提供一种基于掩码去噪的文本到图像行人检索方法、装置及介质。该方法包括：按照设定概率对实体词和属性词分别执行掩码及同类词随机替换，生成经掩码替换的训练文本；将文本特征向量与图像特征向量输入跨模态交互编码器，得到融合特征表示；基于融合特征表示对被掩码位置的原始词语进行预测，计算掩码预测损失；基于文本特征向量与图像特征向量之间的相似度关系计算图文对比学习损失；利用行人检索模型对查询文本与待检索行人图像库分别提取特征，计算查询文本特征与各待检索行人图像特征的相似度并生成排序结果，以输出与查询文本匹配的目标行人图像。本申请能够提高噪声场景下的视觉语义对齐的鲁棒性，显著提升行人检索准确率。

技术关键词

图像特征向量文本特征向量文本编码器图像编码器融合特征图像行人图文标记图像库检索方法跨模态词语序列语义向量预训练语言模型预测误差双向注意力

系统为您推荐了相关专利信息

融合注意力机制的多标签图像识别方法及装置

融合注意力机制图像识别方法多标签图像颜色直方图像素点

基于主动学习和ResViT的鹅只性别识别方法及系统

性别识别方法主动学习框架残差注意力机制归一化模块度量

图像去雾模型的训练方法、图像去雾方法

图像去雾模型有雾图像局部特征信息特征信息融合融合特征

一种基于深度学习的多模态自动摘要方法

自动摘要方法前馈神经网络融合图像特征文本特征向量图像特征向量

一种基于深度学习的服务器数据处理方法及系统

深度学习网络模型网络拓扑结构模态特征数据处理模块注意力机制

基于掩码去噪的文本到图像行人检索方法、装置及介质

站点导航

APP 下载