一种基于视觉与文本常识增强的具身智能体室内导航方法

正文

推荐专利

申请号：CN202510787869

申请日期：2025-06-13

公开号：CN120297427B

公开日期：2025-09-12

类型：发明专利

摘要

本发明公开了一种基于视觉与文本常识增强的具身智能体室内导航方法，包括借助ChatGPT和BLIP‑2来提供环境常识性信息；借助Stable Diffusion生成常识性的视觉图像；通过视觉编码器和文本编码器分别提取视觉特征和文本特征；通过拓扑映射构建拓扑图特征；通过文本常识布局学习模块和视觉常识布局学习模块，分别从语言和视觉两个维度帮助VLN代理学习环境常识；将学习常识后的文本特征与学习常识后的视觉‑拓扑特征融合得到多模态融合特征，并作为分类回归头的输入进行动作预测；最后执行在线导航，加载训练模型测试导航效果。本发明通过文本和视觉常识中包含的房间类型和房间类型中常见物体等语义和视觉信息，增强视觉特征的表达能力，提高了导航精度和鲁棒性。

技术关键词

室内导航方法视觉特征拓扑图全景图融合特征文本编码器地标房间拓扑特征布局指令模拟器多模态模块图像鲁棒性在线物体

系统为您推荐了相关专利信息

一种桩体冲刷监测实验装置及监测数据融合分析方法

融合分析方法模型箱协方差矩阵底垫数据

融合图表关键数据的多模态图表到文本生成方法与系统

图表文本生成方法表格融合特征数据

图片识别方法、装置、设备、存储介质和程序产品

融合特征布局特征视觉特征特征金字塔网络图像识别模型

身份认证方法、装置、设备、介质和程序产品

生物特征数据分支卷积神经网络生物特征模板身份认证方法融合特征

增强元学习的购买意向预测方法、模型训练方法及设备

多层感知器购买意向预测方法预测特征决策树模型基础

一种基于视觉与文本常识增强的具身智能体室内导航方法

站点导航

APP 下载