一种基于多模态适配器的行人重识别方法、设备及介质

AITNT
正文
推荐专利
一种基于多模态适配器的行人重识别方法、设备及介质
申请号:CN202511415477
申请日期:2025-09-30
公开号:CN120894835B
公开日期:2025-12-09
类型:发明专利
摘要
本发明属于数据处理技术领域,具体涉及一种基于多模态适配器的行人重识别方法、设备及介质,所述方法包括如下步骤:收集行人重识别数据,包括行人的图像数据以及对应的文本描述;对行人重识别数据进行数据增强,数据增强用于处理缺乏文本描述的图像数据,生成该图像数据对应的文本描述;基于多模态大语言模型对文本描述进行文本增强;构建多模态适配器,生成文本适配嵌入与图像适配嵌入,与原始的文本嵌入和图像嵌入进行叠加,得到文本融合特征和图像融合特征;利用文本融合特征和图像融合特征进行行人重识别预测,实现行人重识别。本发明构建了多模态适配器,拥有更少的可训练参数,在增强了模型对目标域适应能力的同时,显著的降低了计算效率。
技术关键词
重识别方法 文本 融合特征 多模态 适配器 图像嵌入 大语言模型 行人重识别数据 注意力 掩码矩阵 上采样 收集行人 采样器 自然语言 生成图像数据 模板
系统为您推荐了相关专利信息
1
一种电网基建项目可研阶段的项目信息库构建方法及系统
电网基建项目 信息库构建方法 拉格朗日插值 阶段 关键字
2
页面显示方法、装置、计算机设备、可读存储介质和产品
控件 编辑 标签 页面显示方法 媒体
3
一种动态监控锂离子电池状态的方法及系统
动态监控 锂离子电池 三维图像数据 电池内部结构 热成像
4
一种基于跨模态数据的多业务承载教学视频分析方法及系统
跨模态数据 知识点 视频分析方法 知识图谱构建 数据采集模块
5
一种RAG增强型小规模语言模型问答准确性提升方法及系统
文本 自然语言技术 分片 小规模 场景
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号