基于占据网络感知的端到端视觉语言导航方法

AITNT
正文
推荐专利
基于占据网络感知的端到端视觉语言导航方法
申请号:CN202510938813
申请日期:2025-07-08
公开号:CN120800380A
公开日期:2025-10-17
类型:发明专利
摘要
本申请涉及导航技术领域,尤其涉及一种基于占据网络感知的端到端视觉语言导航方法、装置及计算机设备,其方法包括:接受语言指令,并获取RGB相机与深度相机采集的彩色图像和深度图;通过ViT模型对彩色图像及深度图进行特征提取,生成图像特征及深度特征,并通过相机模型对深度特征进行旋转平移变换,生成空白3D体素空间;将图像特征映射到空白3D体素空间上,生成3D体素特征,并将图像特征构建为拓扑图;将3D体素特征、拓扑图及语言信息输入到BERT模型中,得到文本特征;将文本特征、3D体素特征及拓扑图输入到跨模态模型中,预测导航路径。本申请有助于提高导航决策的准确性。
技术关键词
导航方法 生成图像特征 彩色图像 深度图 相机模型 环境感知信息 生成拓扑图 文本 深度相机 网络 局部注意力机制 视觉特征 计算机设备 指令 导航技术
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号