摘要
本发明属于数据处理技术领域,具体涉及一种基于多模态适配器的行人重识别方法、设备及介质,所述方法包括如下步骤:收集行人重识别数据,包括行人的图像数据以及对应的文本描述;对行人重识别数据进行数据增强,数据增强用于处理缺乏文本描述的图像数据,生成该图像数据对应的文本描述;基于多模态大语言模型对文本描述进行文本增强;构建多模态适配器,生成文本适配嵌入与图像适配嵌入,与原始的文本嵌入和图像嵌入进行叠加,得到文本融合特征和图像融合特征;利用文本融合特征和图像融合特征进行行人重识别预测,实现行人重识别。本发明构建了多模态适配器,拥有更少的可训练参数,在增强了模型对目标域适应能力的同时,显著的降低了计算效率。
技术关键词
重识别方法
文本
融合特征
多模态
适配器
图像嵌入
大语言模型
行人重识别数据
注意力
掩码矩阵
上采样
收集行人
采样器
自然语言
生成图像数据
模板
系统为您推荐了相关专利信息
电网基建项目
信息库构建方法
拉格朗日插值
阶段
关键字
动态监控
锂离子电池
三维图像数据
电池内部结构
热成像
跨模态数据
知识点
视频分析方法
知识图谱构建
数据采集模块