基于软标签的噪声鲁棒文本到图像行人检索方法及装置

正文

推荐专利

申请号：CN202511277863

申请日期：2025-09-09

公开号：CN120780854B

公开日期：2025-12-26

类型：发明专利

摘要

本申请提供一种基于软标签的噪声鲁棒文本到图像行人检索方法及装置。该方法包括：基于图像全局特征与文本全局特征计算余弦相似度，并对余弦相似度进行归一化，生成表征图文配对置信度的软标签；根据软标签为每一训练样本分配样本权重，并结合随训练进程递增的动态权重因子，得到用于当前迭代的联合权重；利用联合权重分别构建跨模态对比学习损失与相似性分布匹配损失，并将跨模态对比学习损失与相似性分布匹配损失加权求和，得到总损失函数；利用总损失函数更新图像编码器和文本编码器的参数直至训练收敛，获得跨模态对齐模型。本申请能够实现鲁棒跨模态对齐，提高噪声场景下行人检索准确率。

技术关键词

文本编码器图像编码器图像全局特征行人特征查询特征跨模态噪声鲁棒图像行人标签检索方法图像块标记梯度下降优化算法图文序列参数因子动态

系统为您推荐了相关专利信息

基于自适应优化的数据库查询方法与装置

查询执行计划数据库管理系统数据库查询方法遗传算法滑动窗口机制

一种支持人机交互的积木机器人主板

积木机器人支持人机交互声音采集电路模拟麦克风陶瓷天线

一种面向零样本的跨领域推荐方法和系统

物品特征层级大语言模型推荐方法概念

一种用户意图预测方法及相关装置

意图预测方法意图类别融合特征预测特征图像编码器

一种通过混合扩散监督进行多模态到3D对象的生成方法

蒸馏三阶段优化方法对象生成方法多模态

基于软标签的噪声鲁棒文本到图像行人检索方法及装置

站点导航

APP 下载