摘要
本发明提出了一种基于多模态提示增强的行人重识别方法及装置,其中该方法包括:获取行人图像数据,并进行预处理,以得到训练数据集;构建行人重识别模型,其中,行人重识别模型包括可学习文本初始化模块、文本编码器、图像编码器和多模态Prompt嵌入模块;对训练数据集中的行人图像进行离散小波变换,以得到高频语义信息,并经过映射网络,以得到可学习文本的初始化标签;将训练数据集中的行人图像和可学习文本的初始化标签输入到行人重识别模型进行训练,使得可学习文本特征与行人图像特征对齐,通过行人重识别模型可以根据输入图像找到对应文本描述;由此,能够生成更贴近行人图像的文本描述,从而提升了多摄像头视角下行人身份的识别率。
技术关键词
行人重识别模型
重识别方法
多模态
图像编码器
离散小波变换
文本编码器
语义
数据
模块
标签
分支
参数
视觉
处理器
线性
系统为您推荐了相关专利信息
人工智能系统
交付管理方法
管理信息系统
风险
文本特征向量
区间预测方法
双向长短期记忆网络
核密度估计方法
分布式光伏
集合经验模态分解
茶园采摘机器人
茶叶嫩芽
茶叶识别
多模态
机器人运动控制
虚拟现实交互
训练场景
多模态
时空注意力机制
渲染架构