摘要
本发明提出了一种基于开放词汇自适应定位的行人属性识别方法,步骤为:对图像数据集中的图像进行预处理得到预处理图像,提取输入的提示语文本的文本特征;利用关键点提取技术提取所有行人的骨骼关键点,得到预测热图,确定关键点信息集合,选择最接近图像中心的目标行人;进行关键点筛选,得到提示点,生成最终的关键点集合;对行人进行目标检测得到提示框,将最终的关键点集合转化为提示向量,利用SAM算法分割得到分割掩码图;生成姿态区域定位图;将姿态区域定位图和描述行人的文本输入到跨模态的开放词汇行人属性识别模块中,得到行人的具体属性。本发明解决了传统方法无法应对新属性和复杂场景的问题,提升了行人属性识别系统的鲁棒性和适应性。
技术关键词
行人属性识别方法
图像编码器
文本编码器
多级卷积神经网络
视觉特征
卷积神经网络提取特征
行人属性识别系统
骨骼关键点
人体关键点
多层注意力机制
语义向量
损失函数优化
模块
跨模态
系统为您推荐了相关专利信息
姿态识别方法
图像
3D点云数据
物体
双流神经网络
大语言模型
维修指导方法
文本
家用电器故障
音频匹配
多模态
模型训练方法
文本编码器
图像编码器
数据处理方法