摘要
本发明提供了一种基于统一多模态的开放词汇三维场景理解方法,包括:S1.获取三维场景的多种模态数据;S2.设计可训练的层级化点云特征提取模块以处理输入的原始三维点云数据;S3.提出一点云语义描述学习机制,直接从原始三维点云数据生成对应的文本描述;S4.提取各模态的特征,并送入统一特征空间中,在统一特征空间中对来自点云、图像、文本这三种模态的特征进行两两对齐;S5.模型训练与优化:构建一个总损失函数对整个网络模型进行端到端的训练和优化;以及S6.在推理阶段,对于给定的三维场景点云和任意文本查询,执行开放词汇的语义分割或实例分割。本发明方法显著提升了模型在开放词汇场景下的物体识别与分割能力,对新颖类别的泛化能力。
技术关键词
场景理解方法
三维点云数据
特征提取模块
多模态
实例分割
语义
点云特征
层级
二维图像数据
文本编码器
图像编码器
点分配
机制
物体
阶段
网络
系统为您推荐了相关专利信息
智能马桶控制方法
多模态身份识别
指令
联合损失函数
自然语言解析
自动化工业设备
PLC数据采集
监控控制方法
时序卷积神经网络
分布式边缘
双向控制方法
数字孪生
穿戴式手套
视觉手势识别
数据通信通道