车辆密集场景中的图像-文本跨模态车辆检索模型训练方法

正文

推荐专利

申请号：CN202410942443

申请日期：2024-07-15

公开号：CN118968516B

公开日期：2025-03-18

类型：发明专利

摘要

本发明涉及计算机技术领域，提供了一种车辆密集场景中的图像‑文本跨模态车辆检索模型训练方法。该方法解决现有技术中车辆检索模型无法准确理解图像主要内容的问题，提高检索准确率。方案包括获取训练样本集，对图像样本和文本样本进行特征提取，得到视觉‑文本联合嵌入；计算图像样本的语义特征；基于余弦相似度计算图像样本和文本样本间的特征相似度，得到全局和局部特征相似度，通过可学习网络整合全局和局部特征相似度，得到最终的模态间相似度；计算交通场景的图像样本间的语义相似度；根据损失函数更新的权重，所述损失函数包含三元组损失和图像语义损失。本发明用于车辆密集场景中的图像‑文本跨模态车辆检索。

技术关键词

语义特征跨模态 sigmoid函数模型训练方法局部图像特征训练样本集矩阵文本特征向量车辆图像特征向量三元组交通场景图像深度卷积神经网络交叉注意力机制门控循环单元

车辆密集场景中的图像-文本跨模态车辆检索模型训练方法

站点导航

APP 下载