一种基于记忆驱动的视觉语言导航方法

AITNT
正文
推荐专利
一种基于记忆驱动的视觉语言导航方法
申请号:CN202510971397
申请日期:2025-07-15
公开号:CN120869136A
公开日期:2025-10-31
类型:发明专利
摘要
本发明公开了一种基于记忆驱动的视觉语言导航方法,包括以下步骤:S1、构建MDQT模型,MDQT模型包括全景编码器、文本嵌入层、Q‑Former、动作预测模块、记忆更新模块;S2、使用图像关注的掩码语言建模、指令轨迹匹配和指令轨迹对比学习三个预训练任务训练MDQT模型;S3、使用模仿学习和强化学习对MDQT模型进行微调。本发明使用一个可学习的固定长度的记忆向量来编码历史信息。在每一个导航步骤,记忆向量与提取到的全景信息和指令信息进行交互,根据机器人当前的记忆状态提取与当前指令信息最相关的视觉信息,用于决策。本发明在有限的资源下有效维持机器人对历史导航步骤的记忆,提高了机器人的导航成功率和效率。
技术关键词
导航方法 记忆 指令 轨迹 图像编码器 更新模型参数 代表 机器人 视觉特征 嵌入特征 注意力 线性 前馈神经网络 标记 文本 模块
系统为您推荐了相关专利信息
1
用户侧的图像融合方法、装置和存储介质
图像处理组件 图像融合方法 封装组件 存储组件 指令
2
砂箱机器人焊接系统
机器人焊接系统 回转装置 砂箱 倾翻装置 焊接机器人
3
一种文本翻译方法、装置、设备、介质及产品
翻译模型 序列 文本翻译方法 计算机可读指令 解码器
4
用户标签评估的方法、装置、设备及计算机存储介质
标签特征 标识符 计算机程序指令 节点 计算机存储介质
5
基于动态记忆事件触发机制的模糊风电系统鲁棒控制方法
事件触发机制 鲁棒控制方法 模糊推理规则 双馈感应发电机 模糊隶属度函数
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号