摘要
本申请涉及行人重识别技术领域,其具体地公开了一种基于多模态特征和知识库增强的行人重识别方法及系统,其在提取图像中行人外观视觉特征的同时,利用视觉大模型生成行人状态文本描述信息,以构建RAG临时知识库,为每个行人ID存储多时间点、多视角下的视觉外观与文本描述特征对。在接收到新的视频帧时,进一步通过行人检测技术定位视频帧中的每位行人ROI,并提取其多模态查询特征,从而基于当前行人的多模态查询特征与知识库中多模态存储特征的相似度匹配结果,为当前行人分配或创建行人ID,并实时更新知识库。通过这种方式,能够更全面地刻画行人的身份特征,提升多视角和多人场景下的行人重识别可靠性与鲁棒性。
技术关键词
查询特征
重识别方法
多模态特征
ROI图像
文本特征向量
感知特征
存储特征
编码特征
视频帧
行人重识别系统
行人重识别技术
行人检测技术
多视角
身份
层级
系统为您推荐了相关专利信息
推广方法
多模态特征
纹理特征分类
配料
动态光学
高分辨率光学影像
变化检测方法
变化检测模型
多模态特征
多任务
融合方法
查询特征
点云特征
空间位置关系
采样点
语义变化检测方法
相关性计算方法
多尺度特征
大规模高维数据
动态调制机制