摘要
本发明公开了一种多层次跨媒体融合的视觉语言导航方法。本发明步骤:1、智能体利用高通量模拟器在3D仿真环境中获取视觉信息,基于视觉信息,利用观测驱动的航路点预测器,将空间可达性和图像文本相似度作为条件,预测一系列的候选航路点;将沿遍历路径的历史观察的候选航路点与当前观察的候选航路点合并,形成并维护更新全局拓扑图;2、构建协同导航规划模块;3、由协同导航规划模块制定相应的导航路径,控制模块将其精确转化为智能体执行的一系列参数化的低级动作,以到达规划的导航目标位置。本发明克服了在传统拓扑地图中表示视觉特征的局限性,为智能体提供了更有效、更准确的导航策略。
技术关键词
导航方法
多层次
视觉特征
节点
拓扑图
深度全景图
RGB特征
控制模块
仿真环境
导航路径规划
像素点
跨模态
编码
记忆
图像
模拟器
系统为您推荐了相关专利信息
容器组
扫描策略
镜像仓库
负载均衡算法
扫描方法
图像分割方法
空间金字塔池化
图像分割系统
图像语义分割技术
影像
卷积网络模型
监控视频分析方法
大语言模型
服务端
客户端
混合诊断模型
动态决策树
参数
动态时间窗口
节点