摘要
本发明公开一种基于视觉语义和地图集成的零样本连续视觉语言导航方法,包括以下步骤:S1.接受当前导航任务的自然语言指令,并通过文本编码器对其进行编码和特征提取,以获得指令特征;S2.捕获执行任务时的RGB视图,对RGB视图中的环境知识进行解耦,获得环境解耦知识;S3.捕获执行任务时的Depth视图,结合RGB视图以及指令特征,通过跨模态注意力网络获得自我中心的语义地图;S4.结合语义地图以及指令特征,根据航点生成网络生成一系列通向目标的可导航航点;S5.利用这些可导航航点以及环境解耦知识,预测导航智能体当前的导航动作;S6.重复上述步骤,直至导航任务完成或达到最大移动步数。
技术关键词
语义地图
导航方法
网格地图
视觉
规划决策模块
物体
文本编码器
指令
样本
BERT模型
自然语言
跨模态
矩阵
注意力机制
网络
精确地识别
系统为您推荐了相关专利信息
SLAM地图
移动平台定位方法
地图构建方法
扩展卡尔曼滤波算法
医疗机器人
图像边缘检测方法
蚁群算法
蚂蚁
像素点
忆阻器模型
教学系统
视频采集单元
三维虚拟形象
深度学习训练
识别模块
风险监测方法
图像场景识别
场景类别
图像识别模型
标签文本