基于大语言模型的城市视觉导航方法、装置、设备和存储介质

正文

推荐专利

申请号：CN202510493626

申请日期：2025-04-18

公开号：CN120593785A

公开日期：2025-09-05

类型：发明专利

摘要

本发明提供一种基于大语言模型的城市视觉导航方法、装置、设备和存储介质，涉及视觉导航技术领域，该方法包括：基于目标城市的多个第一街景图像构建微调数据集，利用微调数据集对多模态大语言模型微调，各第一街景图像的标注信息包括各第一街景图像对应的地标位置和距离信息；基于微调后的多模态大语言模型确定用于城市视觉导航的智能体系统；基于目标位置的自然语言描述，通过智能体系统重复执行感知、反思、规划和动作的流程直至完成目标导航任务，目标位置描述包括目标与地标的位置关系，位置关系包括相对方位和距离，目标导航任务用于表征从智能体系统的当前位置到目标位置的导航任务。本发明实现了通过智能体系统实现城市场景下的自主导航。

技术关键词

大语言模型智能体系统视觉导航方法街景地标自然语言图像距离信息规划记忆非暂态计算机可读存储介质自主导航模块视觉导航技术关系虚拟仿真环境实体机器人数据路网结构

系统为您推荐了相关专利信息

多人面审的音视频识别处理方法、装置、设备及存储介质

音视频音唇同步身份声纹特征声纹识别模型

数学推理方法、装置、存储介质、计算机程序产品

大语言模型数学计算器执行器非易失性存储介质推理方法

大语言模型推理优化方法、系统、设备及存储介质

大语言模型数据传输同步方法缓存算法内存注意力

一种基于大语言模型的代码翻译的方法和装置

大语言模型代码库工作流节点生成工具

一种人机控制方舱的多机协同调度系统

协同调度系统控制方舱语义标签人机语义向量

基于大语言模型的城市视觉导航方法、装置、设备和存储介质

站点导航

APP 下载