摘要
本发明提供了一种文本原型引导部位对齐的跨模态视频监控行人重识别方法,利用文本引导模型提取并对齐部位特征。首先使用浅层并行深层共享的模态特定特征提取器分别从可见光图像和红外图像中提取对应特征图。然后将带可学习标记的特定于身体部位的文本模板输入文本编码器得到对应身体部位文本原型,以作为提取身体部位特征的文本引导。接着,将文本原型和对应特征图做交叉注意力融合,得到对应部位特征。对于部位特征施加身体语义一致性约束从而进一步提升局部特征的语义一致性。本发明利用文本引导模型对齐部位特征,这些更加细粒度的语义特征对齐使得模型对跨模态和模态内的差异具有更强的鲁棒性。
技术关键词
视频监控行人
特征提取器
重识别方法
原型
可见光图像
文本编码器
身体
注意力
行人重识别
鲁棒性
身份
语义特征
模板
跨模态
标记
多模态
系统为您推荐了相关专利信息
语义分割方法
图像编码器
文本
深度学习模型
多尺度特征
可见光图像
图像恢复策略
跟踪方法
注意力模型
站台