一种基于视觉与文本常识增强的具身智能体室内导航方法

AITNT
正文
推荐专利
一种基于视觉与文本常识增强的具身智能体室内导航方法
申请号:CN202510787869
申请日期:2025-06-13
公开号:CN120297427B
公开日期:2025-09-12
类型:发明专利
摘要
本发明公开了一种基于视觉与文本常识增强的具身智能体室内导航方法,包括借助ChatGPT和BLIP‑2来提供环境常识性信息;借助Stable Diffusion生成常识性的视觉图像;通过视觉编码器和文本编码器分别提取视觉特征和文本特征;通过拓扑映射构建拓扑图特征;通过文本常识布局学习模块和视觉常识布局学习模块,分别从语言和视觉两个维度帮助VLN代理学习环境常识;将学习常识后的文本特征与学习常识后的视觉‑拓扑特征融合得到多模态融合特征,并作为分类回归头的输入进行动作预测;最后执行在线导航,加载训练模型测试导航效果。本发明通过文本和视觉常识中包含的房间类型和房间类型中常见物体等语义和视觉信息,增强视觉特征的表达能力,提高了导航精度和鲁棒性。
技术关键词
室内导航方法 视觉特征 拓扑图 全景图 融合特征 文本编码器 地标 房间 拓扑特征 布局 指令 模拟器 多模态 模块 图像 鲁棒性 在线 物体
系统为您推荐了相关专利信息
1
一种桩体冲刷监测实验装置及监测数据融合分析方法
融合分析方法 模型箱 协方差矩阵 底垫 数据
2
融合图表关键数据的多模态图表到文本生成方法与系统
图表 文本生成方法 表格 融合特征 数据
3
图片识别方法、装置、设备、存储介质和程序产品
融合特征 布局特征 视觉特征 特征金字塔网络 图像识别模型
4
身份认证方法、装置、设备、介质和程序产品
生物特征数据 分支卷积神经网络 生物特征模板 身份认证方法 融合特征
5
增强元学习的购买意向预测方法、模型训练方法及设备
多层感知器 购买意向预测方法 预测特征 决策树模型 基础
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号