摘要
本发明公开了一种基于视觉与语言的无人机导航方法、装置、终端设备及存储介质,涉及无人机导航领域,方法包括:获取无人机所在环境的各个视角的图像以及自然语言导航指令;通过预训练的视觉语言模型提取各个视角的图像的视觉特征,通过预训练的大型语言模型提取自然语言导航指令中每一地标短语对应的地标词特征,基于预训练的视觉语言模型,通过交叉注意力机制得到每一地标短语对应的潜在地标候选项;通过预训练的大型语言模型确定所有目标地标;根据所有目标地标得到可行路径;基于可行路径,实现无人机的导航。通过实施本发明能够解决现有无人机导航技术难以实现无人机在小众场景或未知环境中的导航的问题。
技术关键词
无人机导航方法
地标
六自由度动力学模型
交叉注意力机制
自然语言
视觉特征
词特征
视角
跨模态
无人机导航装置
非线性预测控制
无人机导航技术
俯仰通道
控制无人机
特征提取模块
指令
数据获取模块
图像