摘要
本发明公开了一种视觉‑语言信息交互增益的行人重识别方法与系统,涉及跨模态行人识别技术领域。本发明提出了数据处理优化与深度交互融合方案,主要包含了四个处理阶段:数据处理阶段通过显著性网络生成热力图,结合网格模块实现非均匀采样以放大关键区域特征;属性提取阶段采用Grounded SAM模型生成视觉属性掩码,同时利用GPT2模型解析文本属性;特征融合阶段将视觉属性掩码与原始图像特征加权融合,并通过CLIP模型实现跨模态编码;损失优化阶段设计层次化对齐损失函数,依据相似度细分样本对,优化难样本对齐。本发明通过显著性采样增强关键特征表达、双模态属性深度交互及层次化损失优化,显著提升复杂场景下的行人重识别准确率。
技术关键词
信息交互增益
重识别方法
视觉
预训练模型
图像全局特征
文本
跨模态
分类策略
行人识别技术
三元组
特征加权融合
损失函数优化
融合特征
生成热力图
转化器
网格
行人重识别
图像特征提取
双线性插值
系统为您推荐了相关专利信息
数据处理方法
轨迹
数据处理系统
可读存储介质
图片
静电喷涂方法
参数
静电喷涂系统
密封阀门
喷涂设备
数据融合方法
模态特征
注意力机制
决策融合技术
数据特征提取
大语言模型
识别人脸图像
人脸活体检测方法
视觉特征
多模态