摘要
本发明公开了一种文本检索行人重识别的数据增强方法,步骤包括:在大模型驱动下进行图文语义分区,再通过文本编码器和视觉编码器提取全局文本和图像与局部文本和图像的特征,然后进行全局特征和局部特征的提取,再进行全局特征Mixup和局部特征Mixup,最后训练模型。本发明采用Mixup数据增强方法,通过更精细的图像分区和更丰富的文本语义,实现在图文特征区域之间的一一对应,既进行整体对齐,也进行局部对齐,从而增强图像与文本之间的全局和局部特征的空间关系紧密性,从而提高了模型的鲁棒性与泛用性,增强了图文检索的精度,提高文本检索行人重识别模型的跨域泛化能力,缓解了图文数据的区域不对称问题。
技术关键词
图像嵌入
文本编码器
局部图像特征
排序损失
注意力
语句
行人重识别模型
sigmoid函数
数据
图文
矩阵
语义
图像编码器
分区
词特征
代表
分支
系统为您推荐了相关专利信息
智能故障诊断方法
时域编码器
动态仿真模型
轴承故障诊断
拉普拉斯
医学图像分割网络
医学图像分割方法
注意力
全局平均池化
前馈神经网络
图像编码器
图像增强
分块DCT变换
文本编码器
频域特征
个性化学习路径
数据
知识点
智能教育技术
正确率