基于软标签的噪声鲁棒文本到图像行人检索方法及装置

AITNT
正文
推荐专利
基于软标签的噪声鲁棒文本到图像行人检索方法及装置
申请号:CN202511277863
申请日期:2025-09-09
公开号:CN120780854B
公开日期:2025-12-26
类型:发明专利
摘要
本申请提供一种基于软标签的噪声鲁棒文本到图像行人检索方法及装置。该方法包括:基于图像全局特征与文本全局特征计算余弦相似度,并对余弦相似度进行归一化,生成表征图文配对置信度的软标签;根据软标签为每一训练样本分配样本权重,并结合随训练进程递增的动态权重因子,得到用于当前迭代的联合权重;利用联合权重分别构建跨模态对比学习损失与相似性分布匹配损失,并将跨模态对比学习损失与相似性分布匹配损失加权求和,得到总损失函数;利用总损失函数更新图像编码器和文本编码器的参数直至训练收敛,获得跨模态对齐模型。本申请能够实现鲁棒跨模态对齐,提高噪声场景下行人检索准确率。
技术关键词
文本编码器 图像编码器 图像全局特征 行人特征 查询特征 跨模态 噪声鲁棒 图像行人 标签 检索方法 图像块 标记 梯度下降优化算法 图文 序列 参数 因子 动态
系统为您推荐了相关专利信息
1
基于自适应优化的数据库查询方法与装置
查询执行计划 数据库管理系统 数据库查询方法 遗传算法 滑动窗口机制
2
一种支持人机交互的积木机器人主板
积木机器人 支持人机交互 声音采集电路 模拟麦克风 陶瓷天线
3
一种面向零样本的跨领域推荐方法和系统
物品特征 层级 大语言模型 推荐方法 概念
4
一种用户意图预测方法及相关装置
意图预测方法 意图类别 融合特征 预测特征 图像编码器
5
一种通过混合扩散监督进行多模态到3D对象的生成方法
蒸馏 三阶段优化方法 对象 生成方法 多模态
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号