摘要
本发明提供了一种视觉‑语言与探索的具身导航方法及系统,通过获取多通道深度图像视频作为轨迹数据,结合真实环境数据,根据配对样本结构策略及边界点动态选择策略,搜集视觉‑语言与探索大规模轨迹数据集;设置视觉‑语言与探索训练策略,从动态空间记忆库中读取记忆的查询,获得多通道深度图像序列;将在线探索与动态空间记忆库更新结合,连接视觉‑语言定位和探索,构建三维世界移动理解MTU 3D导航,实现终身学习和探索定位;利用大规模轨迹数据集对联合集成优化框架进行训练,将专家数据与嘈杂导航数据相结合,形成视觉‑语言与探索自动轨迹混合模型,在模拟环境和现实场景中进行智能推理及具身导航。
技术关键词
多通道
视觉
定位轨迹数据
记忆
轨迹规划器
智能推理
导航方法
分系统
动态
策略
生成轨迹
融合语义信息
子系统
图像
导航系统
样本
框架
物体
系统为您推荐了相关专利信息
变电设备
数字孪生模型
动态特征模型
深度强化学习算法
卡尔曼滤波算法
检测模型生成方法
图像特征提取模型
信息检测方法
融合特征
文本
计算机网络入侵检测
网络流量数据集
残差神经网络
计算机网络流量
双向长短期记忆
融合定位方法
协方差矩阵
卡尔曼滤波
视觉
滑动窗口
建筑信息模型构件
瓦片
视觉
图像数据处理技术
层级