摘要
本发明涉及计算机视觉与智能交通领域,提供一种基于视觉语言大模型的零训练车辆重识别方法,包括:动态多粒度文本生成,利用视觉语言大模型对车辆进行视觉特征分析生成结构化层次描述,通过构建层次化生成框架,分层生成车型、颜色、视角的基础语义标签和局部语义引导的关键细节区域描述,并根据置信度的动态调整描述层级;自适应特征融合,实现视觉‑文本特征的自适应融合用于车辆相似度粗排序;组合式对比推理,将视觉‑文本粗排序列表的TopN图像划分为N/2个对比组,利用视觉语言大模型进行多图像联合分析实现精排序。本发明方法生成了车辆图像的多层级细粒度文本描述,在无需训练的情况下实现了开放场景下的车辆重识别。
技术关键词
重识别方法
文本
生成框架
视觉特征
层级
语义标签
列表
车辆重识别
特征检测器
视角
组合式
车型
稳态概率
置信度阈值
动态
图像缩放
系统为您推荐了相关专利信息
文档转换方法
便携式文档格式
超文本标记语言
网络
数据