一种基于辅助文本对齐范式的文本到图像行人检索方法

AITNT
正文
推荐专利
一种基于辅助文本对齐范式的文本到图像行人检索方法
申请号:CN202510514865
申请日期:2025-04-23
公开号:CN120431602A
公开日期:2025-08-05
类型:发明专利
摘要
本发明公开了一种基于辅助文本对齐范式的文本到图像行人检索方法,包括:利用多模态大语言模型,基于图像与交互式指令生成对应的辅助文本;通过图像编码器提取图像的全局特征和局部特征,通过文本编码器分别提取文本和辅助文本的全局特征和局部特征;将辅助文本的全局特征知识迁移到图像和文本模态中,基于混合专家知识学习模块分别动态融合迁移后的图像全局特征和迁移后的文本全局特征,获得对应的图像最终特征表示和文本最终特征表示;为每个图像和文本动态选择最相似的负样本对,利用多头交叉注意力对比学习正负样本对的细粒度差异,实现文本到图像的跨模态匹配,完成行人检索。本发明能够实现更精确地文本到图像的行人检索。
技术关键词
图像全局特征 交互式指令 文本编码器 图像编码器 图像行人 大语言模型 检索方法 样本 注意力 特征提取模块 动态 分析图像数据 图像局部特征 多模态 序列 BERT模型 匹配模块
系统为您推荐了相关专利信息
1
一种基于三维张量的医疗事件抽取方法
事件抽取方法 三维模型 预训练语言模型 抽取器 三元组
2
一种涡旋光通信轨道角动量的模式识别模型的训练方法
模式识别模型 卷积神经网络模型 光通信 注意力 sigmoid函数
3
一种基于多样性的轻量化视觉搜索引擎
多层感知机 令牌 视觉 补丁 蒸馏
4
一种基于多特征建模和粒度感知的情感语音转换方法
情感语音转换方法 频谱特征 声学特征 韵律特征 连续小波变换分析
5
一种基于双塔模型的科技供需匹配方法、设备及介质
供需匹配方法 科技 语义向量 实体 关键词
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号