摘要
本发明公开了一种基于Transformer的视觉‑语言联合海洋船舶定位方法,属于计算机视觉与自然语言处理领域,本发明首先通过设计一个新的数据集构建方法,包括数据过滤、属性提取和表达式生成三个步骤来构建新的海洋遥感船舶图像视觉‑语言联合定位数据集,同时利用视觉特征增强模块,在视觉‑语言融合模块之前,通过语言引导增强视觉特征;在此基础上,将语言特征进行扩张后和视觉特征进行Concat,保留了视觉特征的空间信息,再使用Transformer的多头自注意力机制进行特征融合,实现跨模态信息的交互和整合,并引入新的损失计算方式使损失计算更加准确;最终提高了视觉‑语言联合定位海洋船舶的效率和准确率。
技术关键词
海洋船舶
视觉特征
定位方法
语言模块
句子模板
注意力机制
表达式
文本
堆叠模块
海洋遥感图像
数据集构建方法
属性提取方法
多模态特征
标签文件
处理器