基于双模态交互的开放词汇三维场景理解方法

正文

推荐专利

申请号：CN202411081166

申请日期：2024-08-08

公开号：CN118606900B

公开日期：2024-10-11

类型：发明专利

摘要

本发明涉及涉及图像处理和计算机视觉技术领域，公开基于双模态交互的开放词汇三维场景理解方法，包括以下步骤：将原始点云数据输入三维场景理解模型，得到三维场景理解特征，所述三维场景理解特征同时具有文本信息描述和点云特征向量；所述三维场景理解模型包括点云特征提取网络、预训练图像语义提案网络、预训练图像生成文本网络、预训练文本编码网络、自适应语言文本编码器；构建损失函数对所述三维场景理解模型进行训练，所述损失函数包括实例预测损失函数、分类损失函数、图文匹配损失函数、关联损失函数。本发明结合点云、图像和语言类的模型，通过开放词汇和未见类别提高对三维场景的理解。

技术关键词

场景理解方法点云特征提取二维图像数据双模态稀疏卷积神经网络文本编码器深度图像信息生成点云数据图文计算机视觉技术参数语义标签

系统为您推荐了相关专利信息

一种基于点云和图像多阶段融合的3D目标检测方法

特征提取模块多阶段特征激光点云数据融合特征图像特征提取

一种基于2T0C DRAM-1T1R RRAM融合算子进行特征提取方法

特征提取方法矩阵向量乘法感测放大器晶体管三维点云识别

单次示教的非刚性物体操作技能学习系统及方法

操作技能学习系统物体编码模块点云特征提取

基于激光雷达与卡口相机融合的收费车型检测方法及系统

车型检测方法二维图像数据三维点云数据车辆卡口

一种集成光电与热电双模态的CMOS成像芯片

选通模块双模态晶体管热电 PN结二极管

基于双模态交互的开放词汇三维场景理解方法

站点导航

APP 下载