基于统一多模态的开放词汇三维场景理解方法

AITNT
正文
推荐专利
基于统一多模态的开放词汇三维场景理解方法
申请号:CN202510595345
申请日期:2025-05-09
公开号:CN120451957A
公开日期:2025-08-08
类型:发明专利
摘要
本发明提供了一种基于统一多模态的开放词汇三维场景理解方法,包括:S1.获取三维场景的多种模态数据;S2.设计可训练的层级化点云特征提取模块以处理输入的原始三维点云数据;S3.提出一点云语义描述学习机制,直接从原始三维点云数据生成对应的文本描述;S4.提取各模态的特征,并送入统一特征空间中,在统一特征空间中对来自点云、图像、文本这三种模态的特征进行两两对齐;S5.模型训练与优化:构建一个总损失函数对整个网络模型进行端到端的训练和优化;以及S6.在推理阶段,对于给定的三维场景点云和任意文本查询,执行开放词汇的语义分割或实例分割。本发明方法显著提升了模型在开放词汇场景下的物体识别与分割能力,对新颖类别的泛化能力。
技术关键词
场景理解方法 三维点云数据 特征提取模块 多模态 实例分割 语义 点云特征 层级 二维图像数据 文本编码器 图像编码器 点分配 机制 物体 阶段 网络
系统为您推荐了相关专利信息
1
一种基于自然语言交互的智能马桶控制方法、系统及存储介质
智能马桶控制方法 多模态身份识别 指令 联合损失函数 自然语言解析
2
自动化工业设备PLC数据采集监控控制方法及系统
自动化工业设备 PLC数据采集 监控控制方法 时序卷积神经网络 分布式边缘
3
一种智能客服问答系统及方法
问答系统 自然语言转换 图谱 语义 隐私保护模块
4
一种云计算环境中的入侵检测与防护方法
历史访问记录 云计算环境 集中度 模式 关键字
5
虚实同步的数字孪生仿生手双向控制方法
双向控制方法 数字孪生 穿戴式手套 视觉手势识别 数据通信通道
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号