摘要
本发明提出了一种基于动态网格地图的视觉语言导航方法及系统,属于导航技术领域;包括:采用CLIP模型提取RGB全景图像的视觉语言特征;将视觉语言特征和深度图像的深度特征与网格单元的绝对坐标结合,构建网格地图;并根据网格单元与导航指令的语义相关性,更新网格地图;基于级联注意力机制得到与网格地图相对应的跨模态交互特征,并利用Mamba模块进行分析,以输出预测航路点;采用DD‑PPO作为局部策略,以预测航路点作为输入进行动作分析,生成概率分布;根据概率分布选择并执行导航动作。本发明能够在避免长距离依赖的基础上,快速响应动态连续环境变化,以实现针对智能体的精准视觉语言导航。
技术关键词
网格地图
交互特征
导航方法
视觉
网格特征
地图特征
跨模态
注意力机制
动态
语义
坐标
策略
指令
时序
图像采集模块
级联