摘要
本发明公开了一种基于多模态信息融合的视觉定位方法及系统,属于计算机视觉领域。所述方法包括:获取同一场景下的RGB图像和深度图像,并通过多模态特征提取网络从所述RGB图像中提取语义特征,从所述深度图像中提取结构特征;通过特征平衡模块对所述语义特征和语义特征进行权重分配和深度融合,得到最终的多模态融合特征;基于所述最终的多模态融合特征,预测每个二维像素点的三维场景坐标及其对应的不确定性;基于所述预测的坐标,计算相机的6自由度位姿。本发明解决了现有单一模态视觉定位方法中存在的纹理依赖性和结构模糊性问题。
技术关键词
多模态信息融合
视觉定位方法
融合特征
特征提取网络
加权特征
结构特征提取
语义特征提取
RANSAC算法
像素点
图像
序列
视觉定位系统
多层次
坐标点
相机模型
上采样