一种基于Transformer的室内多模态3D目标检测方法

正文

推荐专利

申请号：CN202510642262

申请日期：2025-05-19

公开号：CN120543826A

公开日期：2025-08-26

类型：发明专利

摘要

本发明公开了一种基于Transformer的室内多模态3D目标检测方法，属于人工智能与计算机视觉技术领域。该方法通过融合点云数据和RGB图像数据，结合创新的Geo‑ResAlign空间对齐模块和FusionNet多模态融合模块，有效解决了传统方法中因点云数据稀疏、多模态对齐误差及特征利用不充分导致的检测精度低、鲁棒性差的问题。具体实施中，首先对点云和图像数据进行预处理和特征提取；随后通过Geo‑ResAlign模块的逆几何对齐机制和残差对齐机制，消除多模态数据的空间偏差；再利用FusionNet模块进行跨模态特征融合，通过置信度筛选、动态加权和Transformer自注意力机制实现深度交互；最终生成3D边界框和目标类别信息。本发明显著提升了复杂室内场景下的检测精度与效率，可广泛应用于机器人导航、智能安防、工业自动化等领域。

技术关键词

多模态融合特征跨模态点云空间对齐模块融合点云数据点云特征提取加权损失函数注意力机制计算机视觉技术图像特征提取智能安防动态参数鲁棒性

一种基于Transformer的室内多模态3D目标检测方法

站点导航

APP 下载