基于拓扑语义地图提示的视觉语言导航规划方法和设备

AITNT
正文
推荐专利
基于拓扑语义地图提示的视觉语言导航规划方法和设备
申请号:CN202410914652
申请日期:2024-07-09
公开号:CN118999554B
公开日期:2025-10-28
类型:发明专利
摘要
本发明涉及一种基于拓扑语义地图提示的视觉语言导航规划方法和设备,方法首先由大语言模型将长指令分解成短指令并提取特定地标词汇,这些地标将由多模态模型在图像上进行提取和分类,生成相应的语义掩码和对应的文本描述信息,并基于文本描述信息对2D语义编码进行简化,然后结合无人机位置姿态信息和图像深度信息构建/更新自然语言形式的语义矩阵,最后基于大型语言模型输出规划结果,本发明提供了基于大语言模型的端到端框架,本框架不需要额外训练,也不需要任何动作规划器。与现有技术相比,本发明具有无需动作规划器或额外训练、减小计算量的同时提高推导的准确性、空间感知能力强等优点。
技术关键词
导航规划方法 语义地图 地标 视觉 图像深度信息 矩阵 自然语言 文本 指令 无人机 点云空间 大语言模型 元素 电子设备 程序 可读存储介质 格式
系统为您推荐了相关专利信息
1
基于深度学习的视觉地图定位系统及方法
地图定位系统 特征地图 视觉定位模块 车辆定位 车载相机
2
一种移动型机器人的边缘智能计算板卡系统及其运行方法
移动型机器人 板卡系统 管理系统 雷达点云数据 力传感器
3
多模态视听媒体远程交互系统
远程交互系统 策略 数据获取模块 子模块 敏感度矩阵
4
一种对脉冲噪声鲁棒的盲图像去模糊方法
图像去模糊方法 脉冲噪声 图像金字塔 加权最小二乘法 模糊核估计
5
一种基于动作改进预训练的视觉语言导航方法
导航方法 编码器 更新模型参数 视觉 机器人
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号