摘要
本发明公开了一种基于自然语言描述的无人机多模态特征融合目标跟踪方法及系统,属于计算机视觉与图像处理技术领域,解决现有技术在无人机采集的图像质量差或图像特征不明显时,易造成目标跟踪能力及长时跟踪能力差的问题。本发明无人机视角的图像中的交通事故场景进行自然语言描述,获取语言提示;构建场景‑上下文特征金字塔网络对无人机视角的图像进行上下文信息增强处理获得特征增强后的图像;对增强后的图像和语言提示分别进行视觉编码和语言编码,获得视觉特征以及语言特征向量进行视觉‑语言双模态特征局部对齐;将得到的对齐之后的新语言特征与视觉特征进行充分融合,获得多模态特征进行目标跟踪。本发明用于无人机多模态特征融合目标跟踪。
技术关键词
多模态特征融合
自然语言
无人机
视觉特征
跟踪方法
前馈神经网络
路径特征
金字塔网络
输入解码器
ROI提取方法
图像
上下文特征
注意力
双模态
定位头
视角
输出特征
系统为您推荐了相关专利信息
编码向量
多模态
图像视觉特征
文本
视觉特征提取
人体运动姿态
骨骼关键点
纠偏方法
轮廓特征
无人机