摘要
本发明提供一种基于大语言模型的城市视觉导航方法、装置、设备和存储介质,涉及视觉导航技术领域,该方法包括:基于目标城市的多个第一街景图像构建微调数据集,利用微调数据集对多模态大语言模型微调,各第一街景图像的标注信息包括各第一街景图像对应的地标位置和距离信息;基于微调后的多模态大语言模型确定用于城市视觉导航的智能体系统;基于目标位置的自然语言描述,通过智能体系统重复执行感知、反思、规划和动作的流程直至完成目标导航任务,目标位置描述包括目标与地标的位置关系,位置关系包括相对方位和距离,目标导航任务用于表征从智能体系统的当前位置到目标位置的导航任务。本发明实现了通过智能体系统实现城市场景下的自主导航。
技术关键词
大语言模型
智能体系统
视觉导航方法
街景
地标
自然语言
图像
距离信息
规划
记忆
非暂态计算机可读存储介质
自主导航模块
视觉导航技术
关系
虚拟仿真环境
实体机器人
数据
路网结构
系统为您推荐了相关专利信息
大语言模型
数学计算器
执行器
非易失性存储介质
推理方法
大语言模型
数据传输同步方法
缓存算法
内存
注意力