摘要
本发明公开了基于单目相机和语言指令的视觉语言导航方法及系统,方法包括:S1、特征场构建,利用单目RGB‑D摄像头获取的视觉信息,采用3DGS构建3DGS特征场;S2、隐式部分补全,通过上下文特征关系推断缺失区域的表示,以生成完整的特征图;S3、路径点预测,基于3DGS特征场,生成鸟瞰图特征图,并通过路径点预测器预测附近的可导航路径点;S4、基于不确定性的主动感知,当机器人对导航决策不确定时,通过旋转摄像头来获取更多视觉信息并补充缺失的视觉信息;S5、基于构建的全景特征图和预测的路径点,构建拓扑地图,并结合语言指令,利用全景视觉语言导航规划模型进行导航决策。本发明有效解决了单目视觉信息不完整的问题,显著提升导航的成功率和效率。
技术关键词
单目相机
单目视觉信息
导航方法
拓扑地图
非极大值抑制方法
机器人
决策
导航系统
上下文特征
生成点云数据
指令
散射特征
透明度
坐标系
模块
热力图
规划
视角