基于多模态深度学习的三维场景语义理解方法及系统

正文

推荐专利

申请号：CN202511199717

申请日期：2025-08-26

公开号：CN120997511A

公开日期：2025-11-21

类型：发明专利

摘要

本发明涉及语义理解技术领域，具体为基于多模态深度学习的三维场景语义理解方法及系统，包括以下步骤：通过采集自动驾驶场景下点云图像与深度图并进行归一标准化与缺失填补，提取纹理几何空间特征并通过注意力机制融合，引入多时间步状态向量计算变化特征，建模道路参与物体间空间关系并构建动态实例图结构，推理语义标签并对比融合特征生成三维场景语义理解结果。本发明中，通过多源数据归一标准化保障融合质量，图像纹理与点云几何特征协同提取增强语义互补性，状态向量建模提升动态场景感知能力，空间关系图谱刻画物体交互语义关系，语义标签推理机制提升识别精准度与一致性，整体强化三维语义理解的完整性与鲁棒性。

技术关键词

场景语义理解多模态深度学习语义标签融合特征深度图物体图像纹理特征关系动态变化特征注意力机制车辆点云图谱数据多源特征图像像素坐标动态场景感知

系统为您推荐了相关专利信息

一种基于时序大模型的球磨机粒度软测量方法

语言模块软测量方法统计特征球磨机矩阵

基于改进YOLOv5的电力设备红外热缺陷识别方法及系统

缺陷识别方法电力设备网络单元深度卷积生成对抗网络聚类

基于双分支图像融合的PRP制备质量评估方法

变形空间金字塔图像卷积特征样本分支融合特征

一种物品包装缺陷的检测方法及系统

物品包装图像卷积神经网络模型薄膜特征干扰特征

基于DL-MVCNN的风电次同步振荡溯源方法及系统

风电次同步振荡溯源方法通道注意力机制非线性动力学模型融合特征

基于多模态深度学习的三维场景语义理解方法及系统

站点导航

APP 下载