一种基于动作改进预训练的视觉语言导航方法

正文

推荐专利

申请号：CN202510865858

申请日期：2025-06-26

公开号：CN120808141A

公开日期：2025-10-17

类型：发明专利

摘要

本发明公开了一种基于动作改进预训练的视觉语言导航方法。包括以下步骤：S1、构建模型，模型包括指令编码器、观测编码器、历史编码器、跨模态编码器，用于实现视觉和语言信息的对齐和融合；S2、采用掩码动作词建模、方位辨别建模和场景增强建模三个预训练任务对模型进行预训练；S3、使用模仿学习和强化学习，在R2R数据集下对预训练后的模型进行微调。本发明通过三个预训练任务来提高机器人对动作词的理解能力和对视觉信息与方位细节的对齐能力，进而提高机器人在导航过程中的动作选择能力，最终提升机器人在真实导航过程中的导航成功率和导航效率。

技术关键词

导航方法编码器更新模型参数视觉机器人跨模态高层语义信息图像房间结构指令语义结构图片生成机制仿真环境场景风格轨迹标签数据

系统为您推荐了相关专利信息

基于动态视觉与SLAM的配网树障实时分析方法与系统

实时分析方法 Kalman滤波滑动窗口优化双目视觉图像语义标签

搜寻打捞救援一体化的水面无人艇系统及其工作方法

打捞机器人巡航无人机水面无人艇系统信息处理模块主控装置

一种工业机器人夹具

工业机器人夹具刮板辅助机械技术横板气缸

一种同步测试旋拧式机器人手爪夹拧力的装置

机器人手爪丝杆升降台扭矩测试仪光电对管薄膜压力传感器

加密流量数据分类模型的训练方法及加密流量数据的分类方法

数据分类模型加密伪标签生成器样本特征提取器

一种基于动作改进预训练的视觉语言导航方法

站点导航

APP 下载