一种基于知识与历史感知的视觉表征的连续视觉语言导航模型及方法

AITNT
正文
推荐专利
一种基于知识与历史感知的视觉表征的连续视觉语言导航模型及方法
申请号:CN202510515052
申请日期:2025-04-23
公开号:CN120368980A
公开日期:2025-07-25
类型:发明专利
摘要
本发明公开一种基于知识与历史感知的视觉表征的连续视觉语言导航模型及方法,所述连续视觉语言导航模型包括拓扑图构建模块、跨模态规划模块和路径控制模块,所述拓扑图构建模块包括提取模块、过滤模块、交互模块和聚合模块;所述提取模块用于提取RGB图像特征fr、深度图像特征fd、第一知识特征fk、第一历史特征fh和导航指令fi;所述过滤模块分别计算第一知识特征fk、第一历史特征fh和导航指令fi之间的相关矩阵,得到加权后的第二知识特征和第二历史特征所述交互模块通过将第二知识特征第二历史特征与指令进行交互,得到多感知融合特征ffusion;所述聚合模块将多感知融合特征ffusion,RGB图像特征fr和深度图像特征fd聚合得到视觉表征fimg;本发明提出的视觉语言导航方法构建了丰富的与导航指令相关的视觉表征,提高了智能体的导航能力。
技术关键词
视觉 融合特征 拓扑图 过滤模块 结点 图像 导航方法 跨模态 前馈神经网络 指令 RGB特征 控制模块 注意力 编码器 指数 距离信息 矩阵 代表
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号