摘要
本发明公开一种基于知识与历史感知的视觉表征的连续视觉语言导航模型及方法,所述连续视觉语言导航模型包括拓扑图构建模块、跨模态规划模块和路径控制模块,所述拓扑图构建模块包括提取模块、过滤模块、交互模块和聚合模块;所述提取模块用于提取RGB图像特征fr、深度图像特征fd、第一知识特征fk、第一历史特征fh和导航指令fi;所述过滤模块分别计算第一知识特征fk、第一历史特征fh和导航指令fi之间的相关矩阵,得到加权后的第二知识特征和第二历史特征所述交互模块通过将第二知识特征第二历史特征与指令进行交互,得到多感知融合特征ffusion;所述聚合模块将多感知融合特征ffusion,RGB图像特征fr和深度图像特征fd聚合得到视觉表征fimg;本发明提出的视觉语言导航方法构建了丰富的与导航指令相关的视觉表征,提高了智能体的导航能力。
技术关键词
视觉
融合特征
拓扑图
过滤模块
结点
图像
导航方法
跨模态
前馈神经网络
指令
RGB特征
控制模块
注意力
编码器
指数
距离信息
矩阵
代表