摘要
本申请提供一种基于软标签的噪声鲁棒文本到图像行人检索方法及装置。该方法包括:基于图像全局特征与文本全局特征计算余弦相似度,并对余弦相似度进行归一化,生成表征图文配对置信度的软标签;根据软标签为每一训练样本分配样本权重,并结合随训练进程递增的动态权重因子,得到用于当前迭代的联合权重;利用联合权重分别构建跨模态对比学习损失与相似性分布匹配损失,并将跨模态对比学习损失与相似性分布匹配损失加权求和,得到总损失函数;利用总损失函数更新图像编码器和文本编码器的参数直至训练收敛,获得跨模态对齐模型。本申请能够实现鲁棒跨模态对齐,提高噪声场景下行人检索准确率。
技术关键词
文本编码器
图像编码器
图像全局特征
行人特征
查询特征
跨模态
噪声鲁棒
图像行人
标签
检索方法
图像块
标记
梯度下降优化算法
图文
序列
参数
因子
动态
系统为您推荐了相关专利信息
查询执行计划
数据库管理系统
数据库查询方法
遗传算法
滑动窗口机制
积木机器人
支持人机交互
声音采集电路
模拟麦克风
陶瓷天线
意图预测方法
意图类别
融合特征
预测特征
图像编码器