摘要
本发明公开了一种用于集成多模态行人再识别的跨模态分组对齐方法,包括以下步骤:S1、利用共享的同一个图像特征提取器对RGB图像和草图进行特征提取,并利用文本特征提取器对文本进行特征提取;S2、使用融合特征提取器对草图和文本的特征进行特征融合;S3、局部特征通过过滤处理将冗余的特征滤除,再通过跨模态域内对比学习模块进行模态间细粒度特征深度融合,实现细粒度特征对齐;S4、全局特征通过超平面约束模块,将同一行人id的三种模态的全局特征在共享空间中的分布约束到一个超平面中;S5、同一个超平面中的全局特征通过对比学习将三种模态进行对齐,最终实现文本检索RGB图像、草图检索RGB图像、文本融合草图检索RGB图像。
技术关键词
行人再识别
文本
对齐方法
细粒度特征
图像特征提取
模态特征
多模态
特征提取器
融合特征提取
矩阵
跨模态
图像局部特征
线性
样本
令牌
冗余
立体
模块
系统为您推荐了相关专利信息
语料构建方法
预训练语言模型
纠错
语音输入识别
语音识别模型
多角度
问答方法
视觉特征
交叉注意力机制
多视角特征