摘要
本发明公开了一种基于辅助文本对齐范式的文本到图像行人检索方法,包括:利用多模态大语言模型,基于图像与交互式指令生成对应的辅助文本;通过图像编码器提取图像的全局特征和局部特征,通过文本编码器分别提取文本和辅助文本的全局特征和局部特征;将辅助文本的全局特征知识迁移到图像和文本模态中,基于混合专家知识学习模块分别动态融合迁移后的图像全局特征和迁移后的文本全局特征,获得对应的图像最终特征表示和文本最终特征表示;为每个图像和文本动态选择最相似的负样本对,利用多头交叉注意力对比学习正负样本对的细粒度差异,实现文本到图像的跨模态匹配,完成行人检索。本发明能够实现更精确地文本到图像的行人检索。
技术关键词
图像全局特征
交互式指令
文本编码器
图像编码器
图像行人
大语言模型
检索方法
样本
注意力
特征提取模块
动态
分析图像数据
图像局部特征
多模态
序列
BERT模型
匹配模块
系统为您推荐了相关专利信息
事件抽取方法
三维模型
预训练语言模型
抽取器
三元组
模式识别模型
卷积神经网络模型
光通信
注意力
sigmoid函数
情感语音转换方法
频谱特征
声学特征
韵律特征
连续小波变换分析