基于统一多模态的开放词汇三维场景理解方法

正文

推荐专利

申请号：CN202510595345

申请日期：2025-05-09

公开号：CN120451957A

公开日期：2025-08-08

类型：发明专利

摘要

本发明提供了一种基于统一多模态的开放词汇三维场景理解方法，包括：S1.获取三维场景的多种模态数据；S2.设计可训练的层级化点云特征提取模块以处理输入的原始三维点云数据；S3.提出一点云语义描述学习机制，直接从原始三维点云数据生成对应的文本描述；S4.提取各模态的特征，并送入统一特征空间中，在统一特征空间中对来自点云、图像、文本这三种模态的特征进行两两对齐；S5.模型训练与优化：构建一个总损失函数对整个网络模型进行端到端的训练和优化；以及S6.在推理阶段，对于给定的三维场景点云和任意文本查询，执行开放词汇的语义分割或实例分割。本发明方法显著提升了模型在开放词汇场景下的物体识别与分割能力，对新颖类别的泛化能力。

技术关键词

场景理解方法三维点云数据特征提取模块多模态实例分割语义点云特征层级二维图像数据文本编码器图像编码器点分配机制物体阶段网络

系统为您推荐了相关专利信息

一种基于自然语言交互的智能马桶控制方法、系统及存储介质

智能马桶控制方法多模态身份识别指令联合损失函数自然语言解析

自动化工业设备PLC数据采集监控控制方法及系统

自动化工业设备 PLC数据采集监控控制方法时序卷积神经网络分布式边缘

一种智能客服问答系统及方法

问答系统自然语言转换图谱语义隐私保护模块

一种云计算环境中的入侵检测与防护方法

历史访问记录云计算环境集中度模式关键字

虚实同步的数字孪生仿生手双向控制方法

双向控制方法数字孪生穿戴式手套视觉手势识别数据通信通道

基于统一多模态的开放词汇三维场景理解方法

站点导航

APP 下载