摘要
本发明公开了一种基于动作改进预训练的视觉语言导航方法。包括以下步骤:S1、构建模型,模型包括指令编码器、观测编码器、历史编码器、跨模态编码器,用于实现视觉和语言信息的对齐和融合;S2、采用掩码动作词建模、方位辨别建模和场景增强建模三个预训练任务对模型进行预训练;S3、使用模仿学习和强化学习,在R2R数据集下对预训练后的模型进行微调。本发明通过三个预训练任务来提高机器人对动作词的理解能力和对视觉信息与方位细节的对齐能力,进而提高机器人在导航过程中的动作选择能力,最终提升机器人在真实导航过程中的导航成功率和导航效率。
技术关键词
导航方法
编码器
更新模型参数
视觉
机器人
跨模态
高层语义信息
图像
房间结构
指令
语义结构
图片
生成机制
仿真环境
场景
风格
轨迹
标签
数据
系统为您推荐了相关专利信息
实时分析方法
Kalman滤波
滑动窗口优化
双目视觉图像
语义标签
打捞机器人
巡航无人机
水面无人艇系统
信息处理模块
主控装置
机器人手爪
丝杆升降台
扭矩测试仪
光电对管
薄膜压力传感器
数据分类模型
加密
伪标签生成器
样本
特征提取器