摘要
本发明涉及计算机技术领域,提供了一种车辆密集场景中的图像‑文本跨模态车辆检索模型训练方法。该方法解决现有技术中车辆检索模型无法准确理解图像主要内容的问题,提高检索准确率。方案包括获取训练样本集,对图像样本和文本样本进行特征提取,得到视觉‑文本联合嵌入;计算图像样本的语义特征;基于余弦相似度计算图像样本和文本样本间的特征相似度,得到全局和局部特征相似度,通过可学习网络整合全局和局部特征相似度,得到最终的模态间相似度;计算交通场景的图像样本间的语义相似度;根据损失函数更新的权重,所述损失函数包含三元组损失和图像语义损失。本发明用于车辆密集场景中的图像‑文本跨模态车辆检索。
技术关键词
语义特征
跨模态
sigmoid函数
模型训练方法
局部图像特征
训练样本集
矩阵
文本特征向量
车辆
图像特征向量
三元组
交通场景图像
深度卷积神经网络
交叉注意力机制
门控循环单元