摘要
本发明公开了一种基于Transformer的室内多模态3D目标检测方法,属于人工智能与计算机视觉技术领域。该方法通过融合点云数据和RGB图像数据,结合创新的Geo‑ResAlign空间对齐模块和FusionNet多模态融合模块,有效解决了传统方法中因点云数据稀疏、多模态对齐误差及特征利用不充分导致的检测精度低、鲁棒性差的问题。具体实施中,首先对点云和图像数据进行预处理和特征提取;随后通过Geo‑ResAlign模块的逆几何对齐机制和残差对齐机制,消除多模态数据的空间偏差;再利用FusionNet模块进行跨模态特征融合,通过置信度筛选、动态加权和Transformer自注意力机制实现深度交互;最终生成3D边界框和目标类别信息。本发明显著提升了复杂室内场景下的检测精度与效率,可广泛应用于机器人导航、智能安防、工业自动化等领域。
技术关键词
多模态
融合特征
跨模态
点云空间
对齐模块
融合点云数据
点云特征提取
加权损失函数
注意力机制
计算机视觉技术
图像特征提取
智能安防
动态
参数
鲁棒性