自适应对齐的跨模态视觉-语言船舶智能人机交互方法

AITNT
正文
推荐专利
自适应对齐的跨模态视觉-语言船舶智能人机交互方法
申请号:CN202411454322
申请日期:2024-10-17
公开号:CN119357897A
公开日期:2025-01-24
类型:发明专利
摘要
本发明实施例公开了一种自适应对齐的跨模态视觉‑语言船舶智能人机交互方法,包括从船载视觉传感器采集的视觉图像中提取目标图像objects语义表示以及每个objects对应的位置信息;从视觉图像的对应语言指令中提取文本tokens语义表示、并计算文本总结表示;对提取的文本tokens语义表示进行模内对齐操作;对提取的图像tokens语义表示进行模内与模间交互对齐;对细粒度的文本tokens语义表示信息进行压缩整合,融合文本语义表示与跨模态后的图像objects语义表示;将融合特征进行投影,构建损失函数,获取与语言指令相关的目标及其位置,本发明便于船员在巡航过程中能够与智能识别场景进行实时人机互动,提升船舶的智能化与操作效率,以便更好地进行下一步智能决策。
技术关键词
智能人机交互方法 语义特征 文本 定位特征 矩阵 注意力方法 融合特征 船舶 坐标 视觉传感器 图像编码 预训练语言模型 编码模块 指令 细粒度特征
系统为您推荐了相关专利信息
1
电流互感器的故障诊断方法、装置、设备及存储介质
互补集合经验模态分解 故障诊断方法 互感器 电流 注意力机制
2
用于机器人曲面铣削轮廓误差监测的特征融合与精炼嵌入稀疏贝叶斯学习方法及系统
稀疏贝叶斯学习 回归预测模型 字典 切削力 信息数据处理终端
3
一种基于差谱提取的再生剂老化失效行为识别方法及系统
老化沥青 识别方法 指数 剪切模量 算法模型
4
一种面向问答大模型的多智能体系统初始化方法及装置
初始化方法 团队 文本编码器 排序算法 计算机可读取存储介质
5
问答模型训练方法、问答处理方法及相关设备
问答模型训练方法 数据 实体 语义特征 可读存储介质
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号