摘要
本发明提供一种基于物体级无损高斯场的多粒度开放词汇查询方法,引入了一种具有全局一致性代码本的物体级别高斯场,高斯场中的可学习语义标签向量渲染回对应的物体标签后,通过代码本建立起该标签和对应未压缩的高维特征之间的直接映射,从而支持任意维度的语义特征,而无需额外的压缩,显著提高了对物体的理解能力;本发明在多个场景中进行了广泛的定量和定性评估,展示了在物体层面零样本分割和开放词汇理解方面的卓越性能,尤其在物体‑部件的分层检索中实现了最高精度,同时还支持多粒度场景编辑。
技术关键词
查询方法
多层感知机
三元组
感兴趣物体
深度图
场景
图像结构
坐标系
视觉
文本
图像编码器
像素
语义标签
瓦片
语义特征
系统为您推荐了相关专利信息
三维模型分类方法
注意力
三元组
神经网络模型
Softmax分类器
场景意图
意图识别模型
识别方法
词嵌入向量
文本