摘要
本发明公开了一种基于图文模态分区插值的行人重识别数据增强方法,本发明利用语义字典将图像部分和属性词进行映射,然后在此关系下分别对图像部分和局部词汇进行局部线性插值和局部词汇替换,以生成增强的图像‑文本对,然后增强样本和原始样本一并参与模型的训练。本发明所述方法增强模型的泛化能力,对模型融合互补信息,有利于文本检索行人重识别任务精度的提升。本发明通过对图文两个模块分区插值这样输入级的数据增强方法,可以在不改变模型基础组件的前提下,实现特征的有效融合,解决了训练过程中依赖特定参数导致过拟合,限制了模型在未见数据上的泛化能力的问题。
技术关键词
行人重识别数据
全局视觉特征
图文
分区
文本
行人重识别模型
样本
Sigmoid函数
局部视觉特征
语言编码器
图像
排序损失
字典
分块
语义
算法
系统为您推荐了相关专利信息
智能识别方法
文本识别模型
分块策略
分布式计算架构
图像数据预处理
文本处理模型
显示设备
意图识别
手语交互方法
历史交互信息
风险预警方法
Logistic模型
大语言模型
文本
计算机自然语言