一种基于知识与历史感知的视觉表征的连续视觉语言导航模型及方法

正文

推荐专利

申请号：CN202510515052

申请日期：2025-04-23

公开号：CN120368980A

公开日期：2025-07-25

类型：发明专利

摘要

本发明公开一种基于知识与历史感知的视觉表征的连续视觉语言导航模型及方法，所述连续视觉语言导航模型包括拓扑图构建模块、跨模态规划模块和路径控制模块，所述拓扑图构建模块包括提取模块、过滤模块、交互模块和聚合模块；所述提取模块用于提取RGB图像特征fr、深度图像特征fd、第一知识特征fk、第一历史特征fh和导航指令fi；所述过滤模块分别计算第一知识特征fk、第一历史特征fh和导航指令fi之间的相关矩阵，得到加权后的第二知识特征和第二历史特征所述交互模块通过将第二知识特征第二历史特征与指令进行交互，得到多感知融合特征ffusion；所述聚合模块将多感知融合特征ffusion，RGB图像特征fr和深度图像特征fd聚合得到视觉表征fimg；本发明提出的视觉语言导航方法构建了丰富的与导航指令相关的视觉表征，提高了智能体的导航能力。

技术关键词

视觉融合特征拓扑图过滤模块结点图像导航方法跨模态前馈神经网络指令 RGB特征控制模块注意力编码器指数距离信息矩阵代表

一种基于知识与历史感知的视觉表征的连续视觉语言导航模型及方法

站点导航

APP 下载