摘要
本发明属于智慧海洋和计算机视觉技术领域,公开一种基于跨模态交互的海洋船舶图文定位方法,包括:构建数据集;构建编码‑解码结构模型;提取视觉特征和语言特征,生成视觉特征和语言特征;融合上述特征生成坐标先验和对齐特征,用增强对象查询,并与多模态视觉特征和语言特征交互;计算损失函数值,训练多轮得最终模型。本发明将单模态特征与其他模态特征关联,提高模型对视觉和语言特征的语义理解;利用坐标先验增强对象查询,引入判别融合模块加强多模态特征的语义一致性,最终有效提高船舶图文定位任务的效率和准确率。
技术关键词
视觉特征
海洋船舶
跨模态
定位方法
图文
文本
sigmoid函数
注意力机制
坐标
解码模块
编码模块
解码器
模态特征
对象
矩阵乘法运算
语义
计算机视觉技术
智慧海洋
系统为您推荐了相关专利信息
情感识别方法
跨模态
模态特征
深度分类网络
融合特征
跨模态
环境监测数据
设备运行数据
时空融合特征
多模态特征融合
意图识别模型
模态特征
智能客服
分层识别方法
多模态交互
车辆自主
导航定位方法
导航定位系统
环境感知信息
GPS接收器
焊缝定位系统
带钢焊缝
冷轧产线
图像处理模块
预警模块