摘要
一种基于层级语义场的开放词汇三维场景语义查询方法,通过零样本分割模型SAM提取子部分、部分和整体层级的实例掩码,结合CLIP编码器生成像素级多粒度语义特征图;改进神经辐射场架构,设计多分辨率哈希网格与多头多层感知机网络,实现三维空间坐标到多层级语义特征的高效映射,并引入区域对比损失和特征一致性损失约束跨视角语义一致性;在推理阶段,通过计算文本特征与渲染语义特征的相似度自适应选择最优层级,生成高精度语义分割结果。本发明突破传统方法依赖裁剪图像块导致的特征模糊问题,解决了开放词汇场景下语义查询精度低、多粒度理解不足及跨视角冲突的难题,为三维场景交互提供了细粒度、鲁棒性强的自然语言驱动解决方案。
技术关键词
语义查询方法
语义特征
层级
多层感知机
场景
多分辨率特征
图像提取特征
实例标识符
优化网络参数
生成热力图
视角
编码结构
计算机程序产品
场结构
文本
网格
系统为您推荐了相关专利信息
编解码器模型
面向智能家居
问答模型
答案
多媒体
车辆运行数据
车辆故障检测方法
文本
大语言模型
车辆故障检测装置
多模态特征融合
函数调用关系
语义向量
焦点损失函数
抽象语法树