一种文本原型引导部位对齐的跨模态视频监控行人重识别方法

正文

推荐专利

申请号：CN202510264566

申请日期：2025-03-07

公开号：CN120182889A

公开日期：2025-06-20

类型：发明专利

摘要

本发明提供了一种文本原型引导部位对齐的跨模态视频监控行人重识别方法，利用文本引导模型提取并对齐部位特征。首先使用浅层并行深层共享的模态特定特征提取器分别从可见光图像和红外图像中提取对应特征图。然后将带可学习标记的特定于身体部位的文本模板输入文本编码器得到对应身体部位文本原型，以作为提取身体部位特征的文本引导。接着，将文本原型和对应特征图做交叉注意力融合，得到对应部位特征。对于部位特征施加身体语义一致性约束从而进一步提升局部特征的语义一致性。本发明利用文本引导模型对齐部位特征，这些更加细粒度的语义特征对齐使得模型对跨模态和模态内的差异具有更强的鲁棒性。

技术关键词

视频监控行人特征提取器重识别方法原型可见光图像文本编码器身体注意力行人重识别鲁棒性身份语义特征模板跨模态标记多模态

系统为您推荐了相关专利信息

基于数字图像监控的斗轮机智能控制系统及方法

智能控制系统注意力对比度对象语义

一种基于相似性度量的先验掩码优化方法

原型查询特征度量矩阵特征值

一种基于小波变换细节增强和文本提示的夜间语义分割方法和装置

语义分割方法图像编码器文本深度学习模型多尺度特征

一种基于对比学习的肾癌MRI图像分类方法

图像分类方法 T1加权图像肾癌网络肾脏

基于可见光-红外图像的轨道站台目标跟踪方法、装置

可见光图像图像恢复策略跟踪方法注意力模型站台

一种文本原型引导部位对齐的跨模态视频监控行人重识别方法

站点导航

APP 下载