基于协同对齐与自适应融合的视觉语言导航方法及系统

正文

推荐专利

申请号：CN202510918794

申请日期：2025-07-04

公开号：CN120427010B

公开日期：2025-09-12

类型：发明专利

摘要

本发明提出了基于协同对齐与自适应融合的视觉语言导航方法及系统，属于人工智能与计算机视觉领域。方法包括：获取自然语言指令、全景视图、导航历史及动态拓扑地图数据，提取指令特征、视觉特征、导航历史特征和地图节点特征；将指令特征、视觉特征进行特征增强预对齐并输入编码器进行深度融合，生成全局多模态融合特征和辅助决策信号；将全局多模态融合特征和辅助决策信号输入到粗细粒度结合的专家网络中，输出最终预测的导航动作；其中利用专家网络得到预测值；构建多源不确定性向量生成融合权重，融合预测值，得到最终预测的导航动作。有效解决了传统方法中模态鸿沟问题，提高复杂指令理解准确率、导航的稳定性和成功率。

技术关键词

视觉特征融合特征导航方法多模态指令节点特征拓扑地图地标决策自然语言编码器注意力物体信号拓扑图动态网络特征提取模块

系统为您推荐了相关专利信息

一种虚拟电力站监控系统及方法

虚拟网络架构电力站虚拟设备监控机数据处理模块

一种基于人工智能技术的车场值守方法及装置

无人值守系统值守方法人工智能技术场景语音识别算法

一种无损检测及噪声滤除方法、系统、设备及存储介质

金刚石NV色心噪声滤除方法噪声滤除系统荧光电信号

用于正面吊的动态障碍物检测警示系统

动态障碍物检测警示系统数据处理单元深度学习预测正面

基于混合专家模型的文本处理方法、装置、设备及介质

文本处理方法专业计算机可执行指令文本处理装置策略

基于协同对齐与自适应融合的视觉语言导航方法及系统

站点导航

APP 下载