摘要
本发明属于信息技术领域,涉及一种基于文本提示的语义引导的行人重识别方法和系统。该方法包括:将训练图像输入视觉编码器,得到视觉嵌入;利用逆向网络将视觉嵌入映射到文本空间,得到伪令牌,将伪令牌整合到自然语言句子中,得到对于输入图像的语言提示;将语言提示输入文本编码器中,得到文本嵌入;利用视觉嵌入和文本嵌入训练多模态交互模块;将查询图片输入训练完成的多模态交互模块,获得融合视觉与文本信息的特征向量,利用融合视觉与文本信息的特征向量在行人图像数据库中执行相似度检索,得到行人重识别结果。本发明在现有行人重识别数据集上的检索性能得到了显著提升。
技术关键词
文本编码器
多模态交互
融合视觉
重识别方法
令牌
行人重识别数据
行人重识别系统
存储计算机程序
自然语言
图像块
样本
注意力
身份
语义
可读存储介质
图片
系统为您推荐了相关专利信息
多模态交互
动态资源调度
客服
数字孪生
票务管理
图像视觉特征
文本编码器
图像编码
主动学习策略
尺寸
北斗短报文
数据传输系统
协议转换模块
串口通信模块
北斗指挥机