摘要
本发明涉及深度学习和机器人控制技术领域,提供了一种基于方向感知学习的机器人视觉语言导航方法,所述方法包括对设备进行图像文本嵌入,对R2R数据集中的图像和对应指令文本分别进行嵌入操作,便于后续进行视觉语言信息的对齐和融合,再对VLN‑BERT进行四阶段预训练,从而使智能体获得执行基本导航动作的能力,最后执行路径选择微调,通过路径选择来使已经具备通用视觉语言理解能力的智能体具备执行后续导航任务的能力。本发明能够实现提高智能体的方向感知能力,进而增强智能体对自然语言指令和视觉信息的对齐能力,最终实现导航性能的提升。因此,本模型可以更好地在真实环境中完成导航任务。
技术关键词
机器人视觉
导航方法
BERT模型
文本
自然语言
阶段
机器人控制技术
图像特征向量
指令
图像嵌入
嵌入方法
数据
学习方法
互联网
跨模态
多模态
基础
代表
系统为您推荐了相关专利信息
大语言模型
解码方法
解码算法
动态
随机采样方法
检测识别方法
互补性特征
检测网络模型
融合特征
视觉特征
训练图像识别模型
多模态情感分析
对话方法
语音识别模型
大语言模型