摘要
本发明提供一种基于物体级无损高斯场的多粒度开放词汇查询方法,引入了一种具有全局一致性代码本的物体级别高斯场,高斯场中的可学习语义标签向量渲染回对应的物体标签后,通过代码本建立起该标签和对应未压缩的高维特征之间的直接映射,从而支持任意维度的语义特征,而无需额外的压缩,显著提高了对物体的理解能力;本发明在多个场景中进行了广泛的定量和定性评估,展示了在物体层面零样本分割和开放词汇理解方面的卓越性能,尤其在物体‑部件的分层检索中实现了最高精度,同时还支持多粒度场景编辑。
技术关键词
查询方法
多层感知机
三元组
感兴趣物体
深度图
场景
图像结构
坐标系
视觉
文本
图像编码器
像素
语义标签
瓦片
语义特征
系统为您推荐了相关专利信息
血糖试纸
智能管理系统
智能管理模块
电容式传感器
智能管理方法
对话生成模型
心理测评方法
文本
生成训练样本
注意力机制
异常检测方法
大语言模型
对齐模块
多层感知机
重构误差
物体抓取方法
深度图
关键帧
融合多视角信息
关键点