基于Transformer的视觉-语言联合海洋船舶定位方法

正文

推荐专利

申请号：CN202411658054

申请日期：2024-11-20

公开号：CN119169096A

公开日期：2024-12-20

类型：发明专利

摘要

本发明公开了一种基于Transformer的视觉‑语言联合海洋船舶定位方法，属于计算机视觉与自然语言处理领域，本发明首先通过设计一个新的数据集构建方法，包括数据过滤、属性提取和表达式生成三个步骤来构建新的海洋遥感船舶图像视觉‑语言联合定位数据集，同时利用视觉特征增强模块，在视觉‑语言融合模块之前，通过语言引导增强视觉特征；在此基础上，将语言特征进行扩张后和视觉特征进行Concat，保留了视觉特征的空间信息，再使用Transformer的多头自注意力机制进行特征融合，实现跨模态信息的交互和整合，并引入新的损失计算方式使损失计算更加准确；最终提高了视觉‑语言联合定位海洋船舶的效率和准确率。

技术关键词

海洋船舶视觉特征定位方法语言模块句子模板注意力机制表达式文本堆叠模块海洋遥感图像数据集构建方法属性提取方法多模态特征标签文件处理器

基于Transformer的视觉-语言联合海洋船舶定位方法

站点导航

APP 下载