摘要
本发明提供一种基于关键点指导的机器人视觉语言导航方法、装置及设备,方法包括:提取语音指令的关键字作为目标文本;基于多模态预训练知识库,确定目标文本对应的知识原型特征,从知识原型特征,以及RGB图像对应的多个区域特征之间的相似度中确定出相似度最大的目标相似度;在目标相似度大于预设阈值的情况下,确定目标相似度对应的匹配对中区域特征中的目标物体,基于目标物体的深度信息,确定目标物体的目标坐标,基于目标坐标和机器人移动模型,确定机器人的导航路径。该方法通过视觉‑语言跨模态匹配,计算目标文本与图像区域的相似度以实现导航监督;能够在复杂场景中实现多模态信息的高效融合,显著提升机器人导航的精度和鲁棒性。
技术关键词
机器人视觉
导航方法
关键点
原型
物体
文本
速度
非暂态计算机可读存储介质
坐标系
图像
转向轮
关键字
多模态信息
底盘
相机
处理器
导航装置
系统为您推荐了相关专利信息
面向人机协作
视觉感知方法
恢复算法
多分辨率特征
动作识别模型
血管减影图像
血管分割
血管介入手术
导航方法
深度学习模型