一种视觉-语言信息交互增益的行人重识别方法与系统

正文

推荐专利

申请号：CN202511367668

申请日期：2025-09-24

公开号：CN120873695A

公开日期：2025-10-31

类型：发明专利

摘要

本发明公开了一种视觉‑语言信息交互增益的行人重识别方法与系统，涉及跨模态行人识别技术领域。本发明提出了数据处理优化与深度交互融合方案，主要包含了四个处理阶段：数据处理阶段通过显著性网络生成热力图，结合网格模块实现非均匀采样以放大关键区域特征；属性提取阶段采用Grounded SAM模型生成视觉属性掩码，同时利用GPT2模型解析文本属性；特征融合阶段将视觉属性掩码与原始图像特征加权融合，并通过CLIP模型实现跨模态编码；损失优化阶段设计层次化对齐损失函数，依据相似度细分样本对，优化难样本对齐。本发明通过显著性采样增强关键特征表达、双模态属性深度交互及层次化损失优化，显著提升复杂场景下的行人重识别准确率。

技术关键词

信息交互增益重识别方法视觉预训练模型图像全局特征文本跨模态分类策略行人识别技术三元组特征加权融合损失函数优化融合特征生成热力图转化器网格行人重识别图像特征提取双线性插值

系统为您推荐了相关专利信息

基于谱分解的数据处理方法及系统、设备、介质

数据处理方法轨迹数据处理系统可读存储介质图片

一种阀门静电喷涂方法及系统

静电喷涂方法参数静电喷涂系统密封阀门喷涂设备

基于多模态知识图谱和大语言模型的故障诊断问答系统

多模态图谱问答系统时序预训练模型

基于大模型智能体的多模态数据融合方法及系统

数据融合方法模态特征注意力机制决策融合技术数据特征提取

基于多模态大语言模型的人脸活体检测方法、装置、设备及存储介质

大语言模型识别人脸图像人脸活体检测方法视觉特征多模态

一种视觉-语言信息交互增益的行人重识别方法与系统

站点导航

APP 下载