摘要
本发明提供一种机器人导航方法、装置、电子设备及存储介质,涉及具身智能技术领域,所述方法包括:获取多模态观测信息,并基于所述多模态观测信息生成兴趣点集合;在机器人到达所述兴趣点集合中的当前兴趣点的情况下,从所述兴趣点集合中筛选出除所述当前兴趣点外的多个候选兴趣点,并构建包含所述多个候选兴趣点的组合图像;将所述组合图像输入至视觉语言模型中,输出目标兴趣点,并控制所述机器人导航至所述目标兴趣点;其中,所述视觉语言模型用于理解图像和文本输入,并输出基于多模态推理的决策。本发明提供的方法,大幅降低了视觉语言模型的调用频率,从而显著提升了机器人的导航流畅度和整体计算效率。
技术关键词
兴趣点
机器人导航方法
多模态
图像
视觉
机器人位姿
引导机器人
机器人导航装置
非暂态计算机可读存储介质
标识符
文本
构建栅格地图
电子设备
处理器
障碍物
导航模块
带标记
系统为您推荐了相关专利信息
心肌细胞
形态学特征
转录组测序数据
切片
特征提取模型
可见光图像
融合图像特征
风险
图像接收模块
阶段
融合计算方法
导航接收模块
阵列
输出模块
可读存储介质