摘要
本发明涉及一种基于拓扑语义地图提示的视觉语言导航规划方法和设备,方法首先由大语言模型将长指令分解成短指令并提取特定地标词汇,这些地标将由多模态模型在图像上进行提取和分类,生成相应的语义掩码和对应的文本描述信息,并基于文本描述信息对2D语义编码进行简化,然后结合无人机位置姿态信息和图像深度信息构建/更新自然语言形式的语义矩阵,最后基于大型语言模型输出规划结果,本发明提供了基于大语言模型的端到端框架,本框架不需要额外训练,也不需要任何动作规划器。与现有技术相比,本发明具有无需动作规划器或额外训练、减小计算量的同时提高推导的准确性、空间感知能力强等优点。
技术关键词
导航规划方法
语义地图
地标
视觉
图像深度信息
矩阵
自然语言
文本
指令
无人机
点云空间
大语言模型
元素
电子设备
程序
可读存储介质
格式
系统为您推荐了相关专利信息
地图定位系统
特征地图
视觉定位模块
车辆定位
车载相机
移动型机器人
板卡系统
管理系统
雷达点云数据
力传感器
远程交互系统
策略
数据获取模块
子模块
敏感度矩阵
图像去模糊方法
脉冲噪声
图像金字塔
加权最小二乘法
模糊核估计