摘要
本申请涉及导航技术领域,尤其涉及一种基于占据网络感知的端到端视觉语言导航方法、装置及计算机设备,其方法包括:接受语言指令,并获取RGB相机与深度相机采集的彩色图像和深度图;通过ViT模型对彩色图像及深度图进行特征提取,生成图像特征及深度特征,并通过相机模型对深度特征进行旋转平移变换,生成空白3D体素空间;将图像特征映射到空白3D体素空间上,生成3D体素特征,并将图像特征构建为拓扑图;将3D体素特征、拓扑图及语言信息输入到BERT模型中,得到文本特征;将文本特征、3D体素特征及拓扑图输入到跨模态模型中,预测导航路径。本申请有助于提高导航决策的准确性。
技术关键词
导航方法
生成图像特征
彩色图像
深度图
相机模型
环境感知信息
生成拓扑图
文本
深度相机
网络
局部注意力机制
视觉特征
计算机设备
指令
导航技术