一种基于多模态适配器的行人重识别方法、设备及介质

正文

推荐专利

申请号：CN202511415477

申请日期：2025-09-30

公开号：CN120894835B

公开日期：2025-12-09

类型：发明专利

摘要

本发明属于数据处理技术领域，具体涉及一种基于多模态适配器的行人重识别方法、设备及介质，所述方法包括如下步骤：收集行人重识别数据，包括行人的图像数据以及对应的文本描述；对行人重识别数据进行数据增强，数据增强用于处理缺乏文本描述的图像数据，生成该图像数据对应的文本描述；基于多模态大语言模型对文本描述进行文本增强；构建多模态适配器，生成文本适配嵌入与图像适配嵌入，与原始的文本嵌入和图像嵌入进行叠加，得到文本融合特征和图像融合特征；利用文本融合特征和图像融合特征进行行人重识别预测，实现行人重识别。本发明构建了多模态适配器，拥有更少的可训练参数，在增强了模型对目标域适应能力的同时，显著的降低了计算效率。

技术关键词

重识别方法文本融合特征多模态适配器图像嵌入大语言模型行人重识别数据注意力掩码矩阵上采样收集行人采样器自然语言生成图像数据模板