一种基于方向感知学习的机器人视觉语言导航方法

正文

推荐专利

申请号：CN202410919193

申请日期：2024-07-10

公开号：CN118876048A

公开日期：2024-11-01

类型：发明专利

摘要

本发明涉及深度学习和机器人控制技术领域，提供了一种基于方向感知学习的机器人视觉语言导航方法，所述方法包括对设备进行图像文本嵌入，对R2R数据集中的图像和对应指令文本分别进行嵌入操作，便于后续进行视觉语言信息的对齐和融合，再对VLN‑BERT进行四阶段预训练，从而使智能体获得执行基本导航动作的能力，最后执行路径选择微调，通过路径选择来使已经具备通用视觉语言理解能力的智能体具备执行后续导航任务的能力。本发明能够实现提高智能体的方向感知能力，进而增强智能体对自然语言指令和视觉信息的对齐能力，最终实现导航性能的提升。因此，本模型可以更好地在真实环境中完成导航任务。

技术关键词

机器人视觉导航方法 BERT模型文本自然语言阶段机器人控制技术图像特征向量指令图像嵌入嵌入方法数据学习方法互联网跨模态多模态基础代表

系统为您推荐了相关专利信息

大语言模型参数微调方法、系统、设备、存储介质及产品

微调方法通用特征预训练模型大语言模型模块

一种大语言模型的动态随机性解码方法

大语言模型解码方法解码算法动态随机采样方法

一种基于文本检索的遥感目标开集检测识别方法

检测识别方法互补性特征检测网络模型融合特征视觉特征

基于大语言模型的数字交替传译方法、装置及设备

会话大语言模型实体语义向量音频

基于多模态情感的大模型对话方法、装置、设备及介质

训练图像识别模型多模态情感分析对话方法语音识别模型大语言模型

一种基于方向感知学习的机器人视觉语言导航方法

站点导航

APP 下载