基于占据网络感知的端到端视觉语言导航方法

正文

推荐专利

申请号：CN202510938813

申请日期：2025-07-08

公开号：CN120800380A

公开日期：2025-10-17

类型：发明专利

摘要

本申请涉及导航技术领域，尤其涉及一种基于占据网络感知的端到端视觉语言导航方法、装置及计算机设备，其方法包括：接受语言指令，并获取RGB相机与深度相机采集的彩色图像和深度图；通过ViT模型对彩色图像及深度图进行特征提取，生成图像特征及深度特征，并通过相机模型对深度特征进行旋转平移变换，生成空白3D体素空间；将图像特征映射到空白3D体素空间上，生成3D体素特征，并将图像特征构建为拓扑图；将3D体素特征、拓扑图及语言信息输入到BERT模型中，得到文本特征；将文本特征、3D体素特征及拓扑图输入到跨模态模型中，预测导航路径。本申请有助于提高导航决策的准确性。

技术关键词

导航方法生成图像特征彩色图像深度图相机模型环境感知信息生成拓扑图文本深度相机网络局部注意力机制视觉特征计算机设备指令导航技术

基于占据网络感知的端到端视觉语言导航方法

站点导航

APP 下载