一种基于记忆驱动的视觉语言导航方法

正文

推荐专利

一种基于记忆驱动的视觉语言导航方法

申请号：CN202510971397

申请日期：2025-07-15

公开号：CN120869136A

公开日期：2025-10-31

类型：发明专利

摘要

本发明公开了一种基于记忆驱动的视觉语言导航方法，包括以下步骤：S1、构建MDQT模型，MDQT模型包括全景编码器、文本嵌入层、Q‑Former、动作预测模块、记忆更新模块；S2、使用图像关注的掩码语言建模、指令轨迹匹配和指令轨迹对比学习三个预训练任务训练MDQT模型；S3、使用模仿学习和强化学习对MDQT模型进行微调。本发明使用一个可学习的固定长度的记忆向量来编码历史信息。在每一个导航步骤，记忆向量与提取到的全景信息和指令信息进行交互，根据机器人当前的记忆状态提取与当前指令信息最相关的视觉信息，用于决策。本发明在有限的资源下有效维持机器人对历史导航步骤的记忆，提高了机器人的导航成功率和效率。

技术关键词

导航方法记忆指令轨迹图像编码器更新模型参数代表机器人视觉特征嵌入特征注意力线性前馈神经网络标记文本模块

系统为您推荐了相关专利信息

用户侧的图像融合方法、装置和存储介质

图像处理组件图像融合方法封装组件存储组件指令

砂箱机器人焊接系统

机器人焊接系统回转装置砂箱倾翻装置焊接机器人

一种文本翻译方法、装置、设备、介质及产品

翻译模型序列文本翻译方法计算机可读指令解码器

用户标签评估的方法、装置、设备及计算机存储介质

标签特征标识符计算机程序指令节点计算机存储介质

基于动态记忆事件触发机制的模糊风电系统鲁棒控制方法

事件触发机制鲁棒控制方法模糊推理规则双馈感应发电机模糊隶属度函数

一种基于记忆驱动的视觉语言导航方法

站点导航

APP 下载