本文主要介绍来自该团队的最新论文:Scalable Object Relation Encoding for Better 3D Spatial Reasoning in Large Language Models。
该论文提出了全新 3D 位置嵌入方法 QuatRoPE,显著改善大语言模型 3D 空间推理中物体关系编码可扩展性差、空间信息与几何特征融合过早,以及不同位置嵌入机制相互干扰的核心痛点。
该方法以四元数旋转为基础,在保证输入长度与场景物体数量为线性关系的同时,利用大模型的自注意力机制显式计算所有物体两两之间的空间关系,还原三维场景布局,让大模型高效捕捉物体间相对空间关联。
该论文还提出了隔离门控 RoPE 扩展机制 IGRE,有效降低 QuatRoPE 与大模型原生语言 RoPE 的干扰,保留模型原有的语言理解与推理能力;同时构建空间推理基准 ASR,尽可能排除有关目标物体属性的提示对衡量模型空间推理能力的干扰,为模型纯 3D 空间推理能力提供更公平、严谨的评估方式。
这套完整解决方案大幅提升大模型 3D 空间理解与推理能力。
目前该研究已被 CVPR 2026 正式接收,相关代码与模型已开源。

空间推理是具身智能体发展的关键能力,也是解决 3D 视觉语言(3D VL)任务(如 3D 视觉定位、3D 视觉问答)的基础,其核心是基于 3D 场景中物体的空间关系确定目标物体。实现精准的 3D 空间推理,前提是有效编码和计算物体间的空间关系。
受限于 3D 场景 - 语言配对数据的稀缺性,从头训练具备强空间推理能力的模型难度很大,因此一些现有研究选择将 3D 场景表征注入大语言模型(LLM),借助其在预训练中获得的理解和推理能力完成 3D 空间推理。但当前的物体关系编码方式仍存在两大痛点,制约模型性能:
此外,现有 3D VL 数据集无法准确评估模型的空间推理能力:在这些数据集中,3D VL 任务的语言描述常出现有关目标物体属性(如类别、颜色、形状等)的描述,因此模型可能通过识别非空间特征完成任务,无法真实反映其空间推理能力。
针对这些问题,本文提出了包含 QuatRoPE 位置嵌入、IGRE 隔离机制、ASR 基准测试的完整解决方案,为大模型的 3D 空间推理能力升级提供了全新范式。
为解决现有编码方式的缺陷,研究团队提出 QuatRoPE(四元数旋转位置嵌入),在保证输入长度与物体数量线性相关的同时,通过注意力层点积显式计算所有物体间的成对空间关系;并设计 IGRE(隔离门控 RoPE 扩展机制),有效减少 QuatRoPE 与大模型原有语言 RoPE 的干扰,最大程度保留模型的原生能力。
二者结合,让大模型既能精准捕捉 3D 空间关系,又能保证编码的可扩展性和模型的兼容性。
QuatRoPE:基于四元数旋转的三维空间位置嵌入
QuatRoPE 的核心思路是为所有物体相关 token 注入显式绝对位置嵌入,再借助 Transformer 的注意力机制,在计算注意力分数的点积过程中将绝对位置转化为相对位置,从而使用 O (n) 个输入 token 承载 O (n²) 个空间关系,既避免剪枝误差,又保证编码可扩展性。其核心设计亮点体现在两方面:

图 1 「虚假近邻」问题(左图)与 QuatRoPE 的解决方案(右图)
此外,QuatRoPE 的注意力分数设计更符合人类认知的关系准则:空间上相近的物体,其 QuatRoPE 嵌入更相似,点积后得到的注意力分数更大,让模型能更好地理解自然语言中对物体空间关系的隐式指代(如「门左边的窗户」默认指距离门最近的窗户)。
IGRE:隔离门控机制,缓解多 RoPE 干扰
大模型原生的语言 RoPE 与新引入的 QuatRoPE 若直接结合,会因二者同时旋转查询和键向量产生相互干扰,既影响文本位置感知,也破坏 3D 空间关系编码;同时,非物体 token(如提示词、问题词)本无 3D 坐标,若未特殊处理,会被默认定位在坐标原点,导致模型错误关注其与原点附近物体的关系。
针对上述问题,IGRE 通过两个设计实现了 QuatRoPE 与语言 RoPE 的有效隔离:
为解决现有基准无法单独评估空间推理能力的问题,研究团队构建了 ASR(无属性空间推理)基准,通过避免物体属性对评估空间推理能力的干扰,实现对模型 3D 空间推理能力的公平、严谨评估。
ASR 基准的构建分为三个核心步骤:

图 2 ASR 基准的问题筛选及改写过程
通过这一系列设计,ASR 可以作为专门评估大模型纯 3D 空间推理能力的诊断性基准,为相关研究的性能对比提供了统一、可靠的标准。
本文开展了多维度实验,以 Chat-Scene、3DGraphLLM为基础基线模型,在经典 3D VL 基准(ScanRefer、Multi3DRef、SQA3D)和自研 ASR 基准上验证 QuatRoPE+IGRE 的有效性,同时通过消融实验验证各模块的核心贡献,实验结果充分证明了方法的优越性。

表 1 将 QuatRoPE 和 IGRE 应用于基线模型后的实验结果及与此前工作的对比


表 2 基于 ScanRefer 验证 QuatRoPE 解决「虚假近邻」问题的实验结果
在 ScanRefer 数据集的定性案例中,加入 QuatRoPE 的模型能精准定位符合自然语言隐式空间描述的目标物体,而基线模型常出现定位错误。例如对于下图的 (c) 组对比,对于文本中「机器右侧的门」这一表述,基线模型无法区分距离机器远近的两扇门,而 QuatRoPE 能根据注意力分数聚焦更近的门,更符合人类对「旁边」「左侧」等词汇的隐式理解。

图 3 部分定性实验结果
QuatRoPE 是一种面向 3D 大模型的高效可扩展位置嵌入方法,通过四元数旋转将绝对 3D 坐标转化为注意力层的相对空间关系,结合整体向量编码实现了精准的空间布局表征;IGRE 隔离门控机制则解决了多 RoPE 的干扰问题,保证了方法与现有大模型的兼容性;同时构建的 ASR 基准,丰富了纯 3D 空间推理评估体系。
实验结果表明,QuatRoPE+IGRE 在多个 3D VL 主流基准和 ASR 专属基准上实现大幅提升,能有效为大模型提供 3D 空间关系线索,显著增强其空间推理能力。
该研究不仅为 3D 大模型的位置嵌入提供了全新方案,也为智能具身 agent、3D 视觉问答等依赖空间推理的下游任务提供了可行技术路径,推动大模型更好地理解 3D 物理世界。
文章来自于"机器之心",作者 "周圣力"。
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址:https://github.com/microsoft/graphrag
【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。
项目地址:https://github.com/langgenius/dify
【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。
项目地址:https://github.com/infiniflow/ragflow/tree/main
【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目
项目地址:https://github.com/phidatahq/phidata
【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。
项目地址:https://github.com/TaskingAI/TaskingAI
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0
【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。
项目地址:https://github.com/Henry-23/VideoChat
在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat
【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址:https://github.com/PeterH0323/Streamer-Sales