摘要
本发明公开了一种车载摄像头数据自动处理方法,本发明的主要构思在于,自动采集车辆回传的图像数据并接收用户输入的查询文本;利用预训练的视觉检测模型提取预处理后的所述图像数据的图像视觉特征;利用预训练的语言理解模型提取所述查询文本的语义特征;结合所述图像视觉特征以及所述语义特征,得到综合相似度;按照所述综合相似度的排序结果,从所述图像数据中获得与所述查询文本匹配度最高的目标图像。本发明通过预训练实现图像与文本的语义关联,支持零样本学习新场景,无需微调即可精准检索未标注的新场景图像,有效解决传统方案无法依据用户描述精准定位图像以及依赖特定数据微调、无法适应新场景,且响应延迟、管理成本高等一系列问题。
技术关键词
图像视觉特征
车载摄像头
语言理解模型
语义特征
文本
原始图像数据
车辆
场景
云端
交通
标签
样本
编码