一种用于集成多模态行人再识别的跨模态分组对齐方法

AITNT
正文
推荐专利
一种用于集成多模态行人再识别的跨模态分组对齐方法
申请号:CN202411938930
申请日期:2024-12-26
公开号:CN119832599B
公开日期:2025-09-26
类型:发明专利
摘要
本发明公开了一种用于集成多模态行人再识别的跨模态分组对齐方法,包括以下步骤:S1、利用共享的同一个图像特征提取器对RGB图像和草图进行特征提取,并利用文本特征提取器对文本进行特征提取;S2、使用融合特征提取器对草图和文本的特征进行特征融合;S3、局部特征通过过滤处理将冗余的特征滤除,再通过跨模态域内对比学习模块进行模态间细粒度特征深度融合,实现细粒度特征对齐;S4、全局特征通过超平面约束模块,将同一行人id的三种模态的全局特征在共享空间中的分布约束到一个超平面中;S5、同一个超平面中的全局特征通过对比学习将三种模态进行对齐,最终实现文本检索RGB图像、草图检索RGB图像、文本融合草图检索RGB图像。
技术关键词
行人再识别 文本 对齐方法 细粒度特征 图像特征提取 模态特征 多模态 特征提取器 融合特征提取 矩阵 跨模态 图像局部特征 线性 样本 令牌 冗余 立体 模块
系统为您推荐了相关专利信息
1
一种基于多模态AI大模型的软件系统开发方法
软件系统开发方法 记忆图谱 摘要 视角 多模态
2
基于混淆集的特定领域拼写纠错语料构建方法、装置
语料构建方法 预训练语言模型 纠错 语音输入识别 语音识别模型
3
运动轨迹生成方法、装置、电子设备和存储介质
拓扑图 关键点 运动轨迹生成方法 语义特征 异质
4
检索任务处理方法、系统、装置、设备、介质及程序产品
阶段 信息检索 分析子系统 文本生成模型 数据
5
基于多角度图像的多模态问答方法、装置、电子设备
多角度 问答方法 视觉特征 交叉注意力机制 多视角特征
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号