摘要
本发明公开了一种基于视觉与文本常识增强的具身智能体室内导航方法,包括借助ChatGPT和BLIP‑2来提供环境常识性信息;借助Stable Diffusion生成常识性的视觉图像;通过视觉编码器和文本编码器分别提取视觉特征和文本特征;通过拓扑映射构建拓扑图特征;通过文本常识布局学习模块和视觉常识布局学习模块,分别从语言和视觉两个维度帮助VLN代理学习环境常识;将学习常识后的文本特征与学习常识后的视觉‑拓扑特征融合得到多模态融合特征,并作为分类回归头的输入进行动作预测;最后执行在线导航,加载训练模型测试导航效果。本发明通过文本和视觉常识中包含的房间类型和房间类型中常见物体等语义和视觉信息,增强视觉特征的表达能力,提高了导航精度和鲁棒性。
技术关键词
室内导航方法
视觉特征
拓扑图
全景图
融合特征
文本编码器
地标
房间
拓扑特征
布局
指令
模拟器
多模态
模块
图像
鲁棒性
在线
物体
系统为您推荐了相关专利信息
融合特征
布局特征
视觉特征
特征金字塔网络
图像识别模型
生物特征数据
分支卷积神经网络
生物特征模板
身份认证方法
融合特征
多层感知器
购买意向预测方法
预测特征
决策树模型
基础