摘要
本发明提供了一种基于语义对齐和提示学习的空地跨平台目标重识别方法,通过利用视觉语言基础大模型解决空地跨平台视觉特征不对齐问题,该模型包含视觉编码器和文本编码器两分支以及可学习行人描述和平台提示模块;其中视觉编码器基于视觉自注意力编码器Vision Transformer构建,提取图像全局信息;文本编码器基于自注意力编码器Transformer构建,编码文本信息;引入平台提示向量,以此训练图像编码器关注空地跨平台图像行人不变特征,实现空地跨平台特征对齐。本发明有效解决跨平台视频行人重识别任务中跨平台视觉特征不对齐的挑战,有效弥补跨平台视觉图像特征不对齐问题。
技术关键词
注意力编码器
重识别方法
文本编码器
语义特征
归一化模块
文字编码器
无人机
图像块
块编码器
前馈神经网络
视频行人重识别
监控摄像机
行人重识别数据
视觉特征编码
图像全局信息
系统为您推荐了相关专利信息
网络流量识别方法
强化学习网络
语义特征
时间序列特征
语义向量
语义特征
识别方法
计算机存储介质
信息更新
电子设备
时序特征
算力调度方法
指标
量化系统
语义特征提取
资源
组织模块
异构地理信息
生成倒排索引
语义向量