摘要
本发明提出了基于协同对齐与自适应融合的视觉语言导航方法及系统,属于人工智能与计算机视觉领域。方法包括:获取自然语言指令、全景视图、导航历史及动态拓扑地图数据,提取指令特征、视觉特征、导航历史特征和地图节点特征;将指令特征、视觉特征进行特征增强预对齐并输入编码器进行深度融合,生成全局多模态融合特征和辅助决策信号;将全局多模态融合特征和辅助决策信号输入到粗细粒度结合的专家网络中,输出最终预测的导航动作;其中利用专家网络得到预测值;构建多源不确定性向量生成融合权重,融合预测值,得到最终预测的导航动作。有效解决了传统方法中模态鸿沟问题,提高复杂指令理解准确率、导航的稳定性和成功率。
技术关键词
视觉特征
融合特征
导航方法
多模态
指令
节点特征
拓扑地图
地标
决策
自然语言
编码器
注意力
物体
信号
拓扑图
动态
网络
特征提取模块
系统为您推荐了相关专利信息
虚拟网络架构
电力站
虚拟设备
监控机
数据处理模块
无人值守系统
值守方法
人工智能技术
场景
语音识别算法
金刚石NV色心
噪声滤除方法
噪声滤除系统
荧光
电信号
动态障碍物检测
警示系统
数据处理单元
深度学习预测
正面
文本处理方法
专业
计算机可执行指令
文本处理装置
策略