摘要
本发明实施例公开了一种自适应对齐的跨模态视觉‑语言船舶智能人机交互方法,包括从船载视觉传感器采集的视觉图像中提取目标图像objects语义表示以及每个objects对应的位置信息;从视觉图像的对应语言指令中提取文本tokens语义表示、并计算文本总结表示;对提取的文本tokens语义表示进行模内对齐操作;对提取的图像tokens语义表示进行模内与模间交互对齐;对细粒度的文本tokens语义表示信息进行压缩整合,融合文本语义表示与跨模态后的图像objects语义表示;将融合特征进行投影,构建损失函数,获取与语言指令相关的目标及其位置,本发明便于船员在巡航过程中能够与智能识别场景进行实时人机互动,提升船舶的智能化与操作效率,以便更好地进行下一步智能决策。
技术关键词
智能人机交互方法
语义特征
文本
定位特征
矩阵
注意力方法
融合特征
船舶
坐标
视觉传感器
图像编码
预训练语言模型
编码模块
指令
细粒度特征
系统为您推荐了相关专利信息
互补集合经验模态分解
故障诊断方法
互感器
电流
注意力机制
稀疏贝叶斯学习
回归预测模型
字典
切削力
信息数据处理终端
初始化方法
团队
文本编码器
排序算法
计算机可读取存储介质
问答模型训练方法
数据
实体
语义特征
可读存储介质