基于检索增强的视觉语言导航用户需求指令数据生成方法

正文

推荐专利

申请号：CN202510198038

申请日期：2025-02-21

公开号：CN120235222A

公开日期：2025-07-01

类型：发明专利

摘要

本发明涉及基于检索增强的视觉语言导航用户需求指令数据生成方法，包括步骤1，通过启发式方法在场景中标注密集的可供机器人移动的导航位置，再使用层次化聚类筛选出位于空旷区域的且分布相对均匀的导航点和连通的导航拓扑图；步骤2，对于导航拓扑图中的每一个点，均匀采集6个视角的图片，并用大模型识别每个视角内物体的类别、外形描述、功能描述，以及视角内物体的空间关系等步骤；本发明的效果在于，通过利用来自分层场景描述树的环境表征，自上而下地检索不同层级的描述，并引入用户需求信息，有效地提升了所生成导航指令的质量；使用生成的大规模视觉语言导航训练数据，所训练的模型大幅提升了在复杂指令下的导航成功率和零样本导航性能。

技术关键词

数据生成方法大语言模型拓扑图视角视觉轨迹生成器场景启发式方法划分算法物体模拟器指令生成器机器人粗略关系信息检索文本聚类算法层级

系统为您推荐了相关专利信息

基于大模型检索增强生成的服务推荐决策方法和相关设备

应用程序编程接口语义决策方法大语言模型文本

一种基于群集算法的分布式光伏电站阴影识别方法及系统

群集算法分布式光伏电站环境图像数据光伏发电站识别方法

一种用于针织布的智能编织设备及编织方法

扫描设备编织方法编织设备基准台视觉

基于习惯分析的学习路径规划方法

学习路径规划方法习惯答题信息视频捕获设备视觉特征

一种右心声学造影检查流程标准化系统

右心声学造影标准化系统动态超声影像序列气泡

基于检索增强的视觉语言导航用户需求指令数据生成方法

站点导航

APP 下载