车辆密集场景中的图像-文本跨模态车辆检索模型训练方法

AITNT
正文
推荐专利
车辆密集场景中的图像-文本跨模态车辆检索模型训练方法
申请号:CN202410942443
申请日期:2024-07-15
公开号:CN118968516B
公开日期:2025-03-18
类型:发明专利
摘要
本发明涉及计算机技术领域,提供了一种车辆密集场景中的图像‑文本跨模态车辆检索模型训练方法。该方法解决现有技术中车辆检索模型无法准确理解图像主要内容的问题,提高检索准确率。方案包括获取训练样本集,对图像样本和文本样本进行特征提取,得到视觉‑文本联合嵌入;计算图像样本的语义特征;基于余弦相似度计算图像样本和文本样本间的特征相似度,得到全局和局部特征相似度,通过可学习网络整合全局和局部特征相似度,得到最终的模态间相似度;计算交通场景的图像样本间的语义相似度;根据损失函数更新的权重,所述损失函数包含三元组损失和图像语义损失。本发明用于车辆密集场景中的图像‑文本跨模态车辆检索。
技术关键词
语义特征 跨模态 sigmoid函数 模型训练方法 局部图像特征 训练样本集 矩阵 文本特征向量 车辆 图像特征向量 三元组 交通场景图像 深度卷积神经网络 交叉注意力机制 门控循环单元
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号