摘要
本发明涉及基于检索增强的视觉语言导航用户需求指令数据生成方法,包括步骤1,通过启发式方法在场景中标注密集的可供机器人移动的导航位置,再使用层次化聚类筛选出位于空旷区域的且分布相对均匀的导航点和连通的导航拓扑图;步骤2,对于导航拓扑图中的每一个点,均匀采集6个视角的图片,并用大模型识别每个视角内物体的类别、外形描述、功能描述,以及视角内物体的空间关系等步骤;本发明的效果在于,通过利用来自分层场景描述树的环境表征,自上而下地检索不同层级的描述,并引入用户需求信息,有效地提升了所生成导航指令的质量;使用生成的大规模视觉语言导航训练数据,所训练的模型大幅提升了在复杂指令下的导航成功率和零样本导航性能。
技术关键词
数据生成方法
大语言模型
拓扑图
视角
视觉
轨迹生成器
场景
启发式方法
划分算法
物体
模拟器
指令生成器
机器人
粗略
关系
信息检索
文本
聚类算法
层级
系统为您推荐了相关专利信息
应用程序编程接口
语义
决策方法
大语言模型
文本
群集算法
分布式光伏电站
环境图像数据
光伏发电站
识别方法
学习路径规划方法
习惯
答题信息
视频捕获设备
视觉特征
右心声学造影
标准化系统
动态超声影像
序列
气泡