摘要
基于图像‑属性和频域‑空间域双重协同学习的行人属性识别方法,涉及计算机视觉技术领域。提出一个图像‑属性协同学习框架,集成视觉信息和属性标签,以感知对行人属性更精细的语义理解;通过可学习的属性提示获取属性向量表示,将行人图像输入图像编码器以获得视觉向量表示,将属性向量表示和视觉向量表示映射联合图像‑属性协同空间中,通过对比学习损失学习图像和属性之间的语义关联。提出一个频域‑空间域协同学习模块,利用涉及频域幅度谱分量和相位谱分量的交叉注意机制进行交互式引导学习,与空间信息协同学习。全面探索和利用行人图像中的频率‑空间双域信息,获得更稳健的视觉特征。在提高行人属性识别任务性能方面具有显著优势。
技术关键词
行人属性识别方法
图像编码器
文本编码器
视觉特征
集成视觉
协同学习方法
语义
sigmoid函数
框架
标签
分类器
计算机视觉技术
数学
表达式
傅立叶
识别行人
预训练模型