摘要
本发明涉及涉及图像处理和计算机视觉技术领域,公开基于双模态交互的开放词汇三维场景理解方法,包括以下步骤:将原始点云数据输入三维场景理解模型,得到三维场景理解特征,所述三维场景理解特征同时具有文本信息描述和点云特征向量;所述三维场景理解模型包括点云特征提取网络、预训练图像语义提案网络、预训练图像生成文本网络、预训练文本编码网络、自适应语言文本编码器;构建损失函数对所述三维场景理解模型进行训练,所述损失函数包括实例预测损失函数、分类损失函数、图文匹配损失函数、关联损失函数。本发明结合点云、图像和语言类的模型,通过开放词汇和未见类别提高对三维场景的理解。
技术关键词
场景理解方法
点云特征提取
二维图像数据
双模态
稀疏卷积神经网络
文本编码器
深度图像信息
生成点云数据
图文
计算机视觉技术
参数
语义标签
系统为您推荐了相关专利信息
特征提取模块
多阶段特征
激光点云数据
融合特征
图像特征提取
特征提取方法
矩阵向量乘法
感测放大器
晶体管
三维点云识别
车型检测方法
二维图像数据
三维点云数据
车辆
卡口