摘要
本发明涉及一种基于伪文本生成的跨模态行人重识别方法,属于跨模态行人重识别领域。在特征提取阶段,采用CLIP语言视觉预训练模型获取图像和文本的全局与局部语义表示,并通过特征融合模块生成加权融合特征以增强细粒度表征能力。在噪声识别阶段,提出双分量高斯混合模型对图文特征的损失分布进行建模,自动识别并筛除图文匹配中的异常样本。随后,利用多模态大语言模型对噪声图像进行推理,在线生成伪文本以替代原始噪声描述,实现数据增强与文本修复。在优化阶段,引入一种新颖的三元组跨模态对齐损失函数,对文本与图像之间的语义关系进行显式建模与对齐。整体方法实现了数据清洗、语义补全与鲁棒训练的统一。
技术关键词
重识别方法
文本
高斯混合模型
大语言模型
图文
行人重识别
三元组
噪声识别
跨模态
样本
多模态
语义特征
融合特征
图像特征提取
图像块
分辨率
整体方法
预训练模型
系统为您推荐了相关专利信息
大语言模型
程序修复方法
抽象语法树
程序修复系统
多层堆叠层
定位方法
在线学习机制
模糊匹配算法
模型超参数
格式化