一种基于动作改进预训练的视觉语言导航方法

AITNT
正文
推荐专利
一种基于动作改进预训练的视觉语言导航方法
申请号:CN202510865858
申请日期:2025-06-26
公开号:CN120808141A
公开日期:2025-10-17
类型:发明专利
摘要
本发明公开了一种基于动作改进预训练的视觉语言导航方法。包括以下步骤:S1、构建模型,模型包括指令编码器、观测编码器、历史编码器、跨模态编码器,用于实现视觉和语言信息的对齐和融合;S2、采用掩码动作词建模、方位辨别建模和场景增强建模三个预训练任务对模型进行预训练;S3、使用模仿学习和强化学习,在R2R数据集下对预训练后的模型进行微调。本发明通过三个预训练任务来提高机器人对动作词的理解能力和对视觉信息与方位细节的对齐能力,进而提高机器人在导航过程中的动作选择能力,最终提升机器人在真实导航过程中的导航成功率和导航效率。
技术关键词
导航方法 编码器 更新模型参数 视觉 机器人 跨模态 高层语义信息 图像 房间结构 指令 语义结构 图片 生成机制 仿真环境 场景 风格 轨迹 标签 数据
系统为您推荐了相关专利信息
1
基于动态视觉与SLAM的配网树障实时分析方法与系统
实时分析方法 Kalman滤波 滑动窗口优化 双目视觉图像 语义标签
2
搜寻打捞救援一体化的水面无人艇系统及其工作方法
打捞机器人 巡航无人机 水面无人艇系统 信息处理模块 主控装置
3
一种工业机器人夹具
工业机器人夹具 刮板 辅助机械技术 横板 气缸
4
一种同步测试旋拧式机器人手爪夹拧力的装置
机器人手爪 丝杆升降台 扭矩测试仪 光电对管 薄膜压力传感器
5
加密流量数据分类模型的训练方法及加密流量数据的分类方法
数据分类模型 加密 伪标签生成器 样本 特征提取器
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号