摘要
本发明公开了一种基于记忆驱动的视觉语言导航方法,包括以下步骤:S1、构建MDQT模型,MDQT模型包括全景编码器、文本嵌入层、Q‑Former、动作预测模块、记忆更新模块;S2、使用图像关注的掩码语言建模、指令轨迹匹配和指令轨迹对比学习三个预训练任务训练MDQT模型;S3、使用模仿学习和强化学习对MDQT模型进行微调。本发明使用一个可学习的固定长度的记忆向量来编码历史信息。在每一个导航步骤,记忆向量与提取到的全景信息和指令信息进行交互,根据机器人当前的记忆状态提取与当前指令信息最相关的视觉信息,用于决策。本发明在有限的资源下有效维持机器人对历史导航步骤的记忆,提高了机器人的导航成功率和效率。
技术关键词
导航方法
记忆
指令
轨迹
图像编码器
更新模型参数
代表
机器人
视觉特征
嵌入特征
注意力
线性
前馈神经网络
标记
文本
模块
系统为您推荐了相关专利信息
图像处理组件
图像融合方法
封装组件
存储组件
指令
机器人焊接系统
回转装置
砂箱
倾翻装置
焊接机器人
翻译模型
序列
文本翻译方法
计算机可读指令
解码器
标签特征
标识符
计算机程序指令
节点
计算机存储介质
事件触发机制
鲁棒控制方法
模糊推理规则
双馈感应发电机
模糊隶属度函数