基于检索增强的视觉语言导航用户需求指令数据生成方法

AITNT
正文
推荐专利
基于检索增强的视觉语言导航用户需求指令数据生成方法
申请号:CN202510198038
申请日期:2025-02-21
公开号:CN120235222A
公开日期:2025-07-01
类型:发明专利
摘要
本发明涉及基于检索增强的视觉语言导航用户需求指令数据生成方法,包括步骤1,通过启发式方法在场景中标注密集的可供机器人移动的导航位置,再使用层次化聚类筛选出位于空旷区域的且分布相对均匀的导航点和连通的导航拓扑图;步骤2,对于导航拓扑图中的每一个点,均匀采集6个视角的图片,并用大模型识别每个视角内物体的类别、外形描述、功能描述,以及视角内物体的空间关系等步骤;本发明的效果在于,通过利用来自分层场景描述树的环境表征,自上而下地检索不同层级的描述,并引入用户需求信息,有效地提升了所生成导航指令的质量;使用生成的大规模视觉语言导航训练数据,所训练的模型大幅提升了在复杂指令下的导航成功率和零样本导航性能。
技术关键词
数据生成方法 大语言模型 拓扑图 视角 视觉 轨迹生成器 场景 启发式方法 划分算法 物体 模拟器 指令生成器 机器人 粗略 关系 信息检索 文本 聚类算法 层级
系统为您推荐了相关专利信息
1
基于大模型检索增强生成的服务推荐决策方法和相关设备
应用程序编程接口 语义 决策方法 大语言模型 文本
2
一种基于群集算法的分布式光伏电站阴影识别方法及系统
群集算法 分布式光伏电站 环境图像数据 光伏发电站 识别方法
3
一种用于针织布的智能编织设备及编织方法
扫描设备 编织方法 编织设备 基准台 视觉
4
基于习惯分析的学习路径规划方法
学习路径规划方法 习惯 答题信息 视频捕获设备 视觉特征
5
一种右心声学造影检查流程标准化系统
右心声学造影 标准化系统 动态超声影像 序列 气泡
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号