一种基于辅助文本对齐范式的文本到图像行人检索方法

正文

推荐专利

申请号：CN202510514865

申请日期：2025-04-23

公开号：CN120431602A

公开日期：2025-08-05

类型：发明专利

摘要

本发明公开了一种基于辅助文本对齐范式的文本到图像行人检索方法，包括：利用多模态大语言模型，基于图像与交互式指令生成对应的辅助文本；通过图像编码器提取图像的全局特征和局部特征，通过文本编码器分别提取文本和辅助文本的全局特征和局部特征；将辅助文本的全局特征知识迁移到图像和文本模态中，基于混合专家知识学习模块分别动态融合迁移后的图像全局特征和迁移后的文本全局特征，获得对应的图像最终特征表示和文本最终特征表示；为每个图像和文本动态选择最相似的负样本对，利用多头交叉注意力对比学习正负样本对的细粒度差异，实现文本到图像的跨模态匹配，完成行人检索。本发明能够实现更精确地文本到图像的行人检索。

技术关键词

图像全局特征交互式指令文本编码器图像编码器图像行人大语言模型检索方法样本注意力特征提取模块动态分析图像数据图像局部特征多模态序列 BERT模型匹配模块

系统为您推荐了相关专利信息

一种基于三维张量的医疗事件抽取方法

事件抽取方法三维模型预训练语言模型抽取器三元组

一种涡旋光通信轨道角动量的模式识别模型的训练方法

模式识别模型卷积神经网络模型光通信注意力 sigmoid函数

一种基于多样性的轻量化视觉搜索引擎

多层感知机令牌视觉补丁蒸馏

一种基于多特征建模和粒度感知的情感语音转换方法

情感语音转换方法频谱特征声学特征韵律特征连续小波变换分析

一种基于双塔模型的科技供需匹配方法、设备及介质

供需匹配方法科技语义向量实体关键词

一种基于辅助文本对齐范式的文本到图像行人检索方法

站点导航

APP 下载