摘要
本公开属于三维场景理解技术领域,具体涉及一种三维开放词汇语义分割模型的训练方法及装置。所述训练方法包括:获取目标区域的多视角RGB‑D图像,对每个所述图像,通过视觉语言模型进行多阶段推理,生成目标词汇列表并提示二维分割模型建立像素级文本标签,深度映射所述图像生成第一点云,映射所述文本标签至所述第一点云生成逐点文本标签;以所述逐点文本标签为监督信号,预训练具有稀疏编码器‑解码器结构的神经网络模型,在所述第一点云上生成三维分割模型;对目标区域完整场景的第二点云,在共享视觉‑语言特征空间中匹配点特征嵌入与相似度最高的文本嵌入,生成可信点‑文本标签对,并基于此微调所述三维分割模型。
技术关键词
标签
语义分割模型
稀疏编码器
解码器结构
深度映射
视觉特征
神经网络模型
多阶段
图像
场景理解技术
列表
像素
视角
文本编码器
训练装置
系统为您推荐了相关专利信息
载波
参数
非暂态计算机可读存储介质
多标签
散射通信技术
矿井管道
数据采集终端
流量分析方法
数据采集节点
数字孪生模型
在线检测方法
非线性
语义分割模型
卷烟生产线
上采样
非结构化数据处理
内容分发网络
节点
多模态
中文标点符号