摘要
本发明公开了一种基于深度文本‑视觉模态对齐与融合的再识别方法,属于计算机视觉和模式识别领域,该方法设计了一种文本‑视觉模态对齐与融合的深度神经网络,包含文本描述生成模块,视觉特征编码模块,文本特征编码模块和文本‑视觉特征融合模块;该方法首先利用视觉问答生成图像对应实例级文本描述,再通过深度耦合的视觉编码器和文本编码器两个特征提取分支分别生成强对齐的视觉特征和文本特征,最后采用文本‑视觉模态对齐融合技术,联合域无关归一化,增强图像目标前景特征表示,再联合实例归一化提取最终特征,然后利用损失函数模型训练,实现再识别任务。本发明提出的方法能够有效增强目标再识别模型的跨域泛化性能。
技术关键词
文本编码器
数据
图像块
命名方法
识别方法
视觉特征编码
交叉注意力机制
图像增强
询问方法
相机
归一化模块
颜色校准
深度神经网络
处理器
标签
系统为您推荐了相关专利信息
矩阵
代表
疾病关联预测方法
语义
sigmoid函数
供电优化系统
工地
资源
离网供电系统
实时监测数据
多功能光纤传感器
光电探测器阵列
数据处理模块
光纤布拉格光栅
分光器件