摘要
本申请提供一种基于掩码去噪的文本到图像行人检索方法、装置及介质。该方法包括:按照设定概率对实体词和属性词分别执行掩码及同类词随机替换,生成经掩码替换的训练文本;将文本特征向量与图像特征向量输入跨模态交互编码器,得到融合特征表示;基于融合特征表示对被掩码位置的原始词语进行预测,计算掩码预测损失;基于文本特征向量与图像特征向量之间的相似度关系计算图文对比学习损失;利用行人检索模型对查询文本与待检索行人图像库分别提取特征,计算查询文本特征与各待检索行人图像特征的相似度并生成排序结果,以输出与查询文本匹配的目标行人图像。本申请能够提高噪声场景下的视觉语义对齐的鲁棒性,显著提升行人检索准确率。
技术关键词
图像特征向量
文本特征向量
文本编码器
图像编码器
融合特征
图像行人
图文
标记
图像库
检索方法
跨模态
词语
序列
语义向量
预训练语言模型
预测误差
双向注意力
系统为您推荐了相关专利信息
融合注意力机制
图像识别方法
多标签图像
颜色直方图
像素点
性别识别方法
主动学习框架
残差注意力机制
归一化模块
度量
图像去雾模型
有雾图像
局部特征信息
特征信息融合
融合特征
自动摘要方法
前馈神经网络
融合图像特征
文本特征向量
图像特征向量
深度学习网络模型
网络拓扑结构
模态特征
数据处理模块
注意力机制