摘要
一种基于视觉‑语言多模态的船牌识别方法,包括以下步骤:S1:通过图像采集设备获取待识别区域的原始图像;S2:对采集的图像进行超分辨重建和数据增强预处理,生成船牌识别数据集;S3:构建视觉‑语言多模态的船牌识别模型,模型包括视觉模块、语言模块和融合模块;S4:将S2生成的数据集输入到视觉模块进行预训练;S5:利用船牌语料库进行语言模块预训练;S6:加载S4和S5得到的预训练权重,将S2生成的数据集输入到船牌识别模型进行,采用门控融合策略动态加权视觉特征与语言特征,生成多模态联合表征,通过多模态融合损失函数对船牌识别模型进行优化。本发明有效地提高了船牌识别的准确率,提升对遮挡、模糊图像的适应性。
技术关键词
语言模块
多模态
字符
识别方法
船牌
注意力机制
图像采集设备
大规模文本数据
内河船舶
分辨率
融合视觉特征
融合策略
划分方法
序列