摘要
本发明提供了一种基于三维高斯溅射技术的开放词汇3D分割方法,包括:S1.获取多视图2D图像集合,进行初始化三维重建;S2.使用SAM对多视图进行分割,获取2D掩码;S3.使用视频跟踪分割模型(SAM2)关联同一个实例的掩码;S4.使用视觉语言模型(CLIP)对每个掩码提取开放词汇特征;S5.将每个实例的掩码的CLIP特征做平均池化并降维,形成该实例的代表性开放词汇特征;S7.训练模型,监督低维嵌入特征的嵌入;S8.通过比较查询文本的CLIP特征与高斯体的语义特征,得到相关性高的高斯体,通过光栅化渲染生成查询物体的掩码。本发明方法仅需要多视图的2D图像,利用三维高斯溅射技术结合开放词汇技术来分割三维物体和场景,以解决3D数据采集困难,成本高的问题。
技术关键词
溅射技术
分割方法
嵌入特征
压缩编码器
语义特征
运动恢复结构
光栅
图像分割模型
解码器
文本
定义
像素
视频
协方差矩阵
物体
代表
点云
场景