CVPR 2026｜突破3D空间推理瓶颈：北大联合南科大提出QuatRoPE，让大模型精准理解三维物体关系

AI技术研报 2026-04-20 14:04

+6436 阅读

本文主要介绍来自该团队的最新论文：Scalable Object Relation Encoding for Better 3D Spatial Reasoning in Large Language Models。

该论文提出了全新 3D 位置嵌入方法 QuatRoPE，显著改善大语言模型 3D 空间推理中物体关系编码可扩展性差、空间信息与几何特征融合过早，以及不同位置嵌入机制相互干扰的核心痛点。

该方法以四元数旋转为基础，在保证输入长度与场景物体数量为线性关系的同时，利用大模型的自注意力机制显式计算所有物体两两之间的空间关系，还原三维场景布局，让大模型高效捕捉物体间相对空间关联。

该论文还提出了隔离门控 RoPE 扩展机制 IGRE，有效降低 QuatRoPE 与大模型原生语言 RoPE 的干扰，保留模型原有的语言理解与推理能力；同时构建空间推理基准 ASR，尽可能排除有关目标物体属性的提示对衡量模型空间推理能力的干扰，为模型纯 3D 空间推理能力提供更公平、严谨的评估方式。

这套完整解决方案大幅提升大模型 3D 空间理解与推理能力。

目前该研究已被 CVPR 2026 正式接收，相关代码与模型已开源。

CVPR 2026｜突破3D空间推理瓶颈：北大联合南科大提出QuatRoPE，让大模型精准理解三维物体关系

论文链接：https://arxiv.org/abs/2603.24721
代码链接：https://github.com/oceanflowlab/QuatRoPE
项目主页：https://fz-zsl.github.io/quatrope/

打破编码困境：3D 空间推理的两大核心痛点

空间推理是具身智能体发展的关键能力，也是解决 3D 视觉语言（3D VL）任务（如 3D 视觉定位、3D 视觉问答）的基础，其核心是基于 3D 场景中物体的空间关系确定目标物体。实现精准的 3D 空间推理，前提是有效编码和计算物体间的空间关系。

受限于 3D 场景 - 语言配对数据的稀缺性，从头训练具备强空间推理能力的模型难度很大，因此一些现有研究选择将 3D 场景表征注入大语言模型（LLM），借助其在预训练中获得的理解和推理能力完成 3D 空间推理。但当前的物体关系编码方式仍存在两大痛点，制约模型性能：

绝对位置嵌入的理解难题：此前一些工作将物体 3D 坐标作为特征的一部分融合后提供给大语言模型用于推理。由于 3D 坐标系的原点和坐标轴方向无实际物理定义，绝对坐标本身不具备固有语义，让模型通过 3D 坐标理解物体之间的位置关系难度大；同时过早的特征融合让模型难以从融合后的特征中提取空间位置信息并计算物体间的相对位置关系。
显式关系编码的可扩展性缺陷：直接将场景内两两物体间的空间关系编码为输入 token 的方式，会让输入序列长度随物体数量呈二次方增长，容易超出大模型的输入长度上限（如 InteriorGS 数据集单场景平均超 554 个物体，采用 token 三元组编码关系则会有近 46 万个 token）。若采用 KNN 等剪枝策略仅保留部分空间关系，则可能因遗漏解决任务的关键关系导致推理错误。

此外，现有 3D VL 数据集无法准确评估模型的空间推理能力：在这些数据集中，3D VL 任务的语言描述常出现有关目标物体属性（如类别、颜色、形状等）的描述，因此模型可能通过识别非空间特征完成任务，无法真实反映其空间推理能力。

针对这些问题，本文提出了包含 QuatRoPE 位置嵌入、IGRE 隔离机制、ASR 基准测试的完整解决方案，为大模型的 3D 空间推理能力升级提供了全新范式。

核心创新：QuatRoPE+IGRE，实现高效可扩展的 3D 空间编码

为解决现有编码方式的缺陷，研究团队提出 QuatRoPE（四元数旋转位置嵌入），在保证输入长度与物体数量线性相关的同时，通过注意力层点积显式计算所有物体间的成对空间关系；并设计 IGRE（隔离门控 RoPE 扩展机制），有效减少 QuatRoPE 与大模型原有语言 RoPE 的干扰，最大程度保留模型的原生能力。

二者结合，让大模型既能精准捕捉 3D 空间关系，又能保证编码的可扩展性和模型的兼容性。

QuatRoPE：基于四元数旋转的三维空间位置嵌入

QuatRoPE 的核心思路是为所有物体相关 token 注入显式绝对位置嵌入，再借助 Transformer 的注意力机制，在计算注意力分数的点积过程中将绝对位置转化为相对位置，从而使用 O (n) 个输入 token 承载 O (n²) 个空间关系，既避免剪枝误差，又保证编码可扩展性。其核心设计亮点体现在两方面：

四元数旋转的数学设计：将查询和键向量分为三维片段后表示为纯四元数并基于物体 3D 坐标对其进行四元数旋转。通过构建特定的旋转数学公式，让两个旋转后向量的点积（注意力分数）仅与它们在 3D 场景中的相对位置有关（与原始坐标无关），为大模型高效提供所有物体两两之间的空间关系。
3D 坐标的整体向量编码：与将各轴坐标独立编码的方式（如 M-RoPE）不同，QuatRoPE 将物体 3D 坐标编码为整体向量，避免了当某个坐标轴上的坐标差较小时注意力分数虚高的「虚假近邻」问题。例如在下方左图中，床和沙发之间由于在横轴上（绿色线段部分）的坐标差较小，M-RoPE 会错误地增大二者之间的注意力分数，导致模型误以为床与沙发距离很近。而在 QuatRoPE 中（如下方右图所示），通过将物体坐标作为一个整体进行编码，可以更有效地表征 3D 场景的空间布局。

CVPR 2026｜突破3D空间推理瓶颈：北大联合南科大提出QuatRoPE，让大模型精准理解三维物体关系

图 1 「虚假近邻」问题（左图）与 QuatRoPE 的解决方案（右图）

此外，QuatRoPE 的注意力分数设计更符合人类认知的关系准则：空间上相近的物体，其 QuatRoPE 嵌入更相似，点积后得到的注意力分数更大，让模型能更好地理解自然语言中对物体空间关系的隐式指代（如「门左边的窗户」默认指距离门最近的窗户）。

IGRE：隔离门控机制，缓解多 RoPE 干扰

大模型原生的语言 RoPE 与新引入的 QuatRoPE 若直接结合，会因二者同时旋转查询和键向量产生相互干扰，既影响文本位置感知，也破坏 3D 空间关系编码；同时，非物体 token（如提示词、问题词）本无 3D 坐标，若未特殊处理，会被默认定位在坐标原点，导致模型错误关注其与原点附近物体的关系。

针对上述问题，IGRE 通过两个设计实现了 QuatRoPE 与语言 RoPE 的有效隔离：

维度隔离：为物体相关 token 扩展 QuatRoPE 专属维度，对非物体 token 则进行零填充对齐维度数量，让 QuatRoPE 的旋转仅作用于物体 token 的专属维度，与语言 RoPE 的作用维度分离，从而有效减少干扰。
门控调节：仅当两个物体 token 交互时，才通过点积调整注意力分数以反映相对位置；当非物体 token 参与交互时，零填充维度让这些维度的元素乘积为 0，注意力分数保持不变，使 QuatRoPE 的影响被严格限制在物体相关 token 范围内，保留大模型原有的语言理解和推理能力。

全新基准：ASR，精准评估纯空间推理能力

为解决现有基准无法单独评估空间推理能力的问题，研究团队构建了 ASR（无属性空间推理）基准，通过避免物体属性对评估空间推理能力的干扰，实现对模型 3D 空间推理能力的公平、严谨评估。

ASR 基准的构建分为三个核心步骤：

CVPR 2026｜突破3D空间推理瓶颈：北大联合南科大提出QuatRoPE，让大模型精准理解三维物体关系

图 2 ASR 基准的问题筛选及改写过程

样本筛选：从 ScanQA 数据集中选取答案唯一、询问物体名称的 3D VQA 问题，保证任务的空间推理导向；
属性过滤：剔除所有包含目标物体属性（类别、颜色、形状等）的问题，强制模型仅能通过空间关系推理得出答案；
格式转换：将筛选后的问题转化为 3D 视觉定位格式，让模型仅需在场景物体中做单选题，弱化不同模型语言生成能力差异对评估的影响。

通过这一系列设计，ASR 可以作为专门评估大模型纯 3D 空间推理能力的诊断性基准，为相关研究的性能对比提供了统一、可靠的标准。

实验验证：核心能力显著提升

本文开展了多维度实验，以 Chat-Scene、3DGraphLLM为基础基线模型，在经典 3D VL 基准（ScanRefer、Multi3DRef、SQA3D）和自研 ASR 基准上验证 QuatRoPE+IGRE 的有效性，同时通过消融实验验证各模块的核心贡献，实验结果充分证明了方法的优越性。

在现有数据集上，将 QuatRoPE+IGRE 应用于不同规模的基线模型后，各项评估指标均显著提升（详见表 1），且在对空间推理要求更高的 3D 视觉定位任务中提升更为显著：如 Chat-Scene-1B 模型在使用 QuatRoPE 后，ScanRefer 的 Acc@0.25 从 50.7 提升至 55.4，Multi3DRef 的 F1@0.25 从 53.3 提升至 58.1。

CVPR 2026｜突破3D空间推理瓶颈：北大联合南科大提出QuatRoPE，让大模型精准理解三维物体关系

表 1 将 QuatRoPE 和 IGRE 应用于基线模型后的实验结果及与此前工作的对比

在 ASR 无属性空间推理基准的零样本推理实验中，加入 QuatRoPE 的模型在不同基线、不同规模下均实现显著增益，验证了方法对模型纯空间推理能力的提升效果：如 Chat-Scene-1B 模型的 Acc@0.25 从 22.92 提升至 27.38，相对增益达 19.48%；3DGraphLLM-1B 模型的 Acc@0.25 从 25.89 提升至 29.76，相对增益达 14.94%。

CVPR 2026｜突破3D空间推理瓶颈：北大联合南科大提出QuatRoPE，让大模型精准理解三维物体关系

表 2 基于 ScanRefer 验证 QuatRoPE 解决「虚假近邻」问题的实验结果

定性结果：精准捕捉隐式空间关系，贴合人类认知

在 ScanRefer 数据集的定性案例中，加入 QuatRoPE 的模型能精准定位符合自然语言隐式空间描述的目标物体，而基线模型常出现定位错误。例如对于下图的 (c) 组对比，对于文本中「机器右侧的门」这一表述，基线模型无法区分距离机器远近的两扇门，而 QuatRoPE 能根据注意力分数聚焦更近的门，更符合人类对「旁边」「左侧」等词汇的隐式理解。

CVPR 2026｜突破3D空间推理瓶颈：北大联合南科大提出QuatRoPE，让大模型精准理解三维物体关系

图 3 部分定性实验结果

总结：3D 大模型空间推理的全新基石

QuatRoPE 是一种面向 3D 大模型的高效可扩展位置嵌入方法，通过四元数旋转将绝对 3D 坐标转化为注意力层的相对空间关系，结合整体向量编码实现了精准的空间布局表征；IGRE 隔离门控机制则解决了多 RoPE 的干扰问题，保证了方法与现有大模型的兼容性；同时构建的 ASR 基准，丰富了纯 3D 空间推理评估体系。

实验结果表明，QuatRoPE+IGRE 在多个 3D VL 主流基准和 ASR 专属基准上实现大幅提升，能有效为大模型提供 3D 空间关系线索，显著增强其空间推理能力。

该研究不仅为 3D 大模型的位置嵌入提供了全新方案，也为智能具身 agent、3D 视觉问答等依赖空间推理的下游任务提供了可行技术路径，推动大模型更好地理解 3D 物理世界。

文章来自于"机器之心"，作者 "周圣力"。

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。

项目地址：https://github.com/browser-use/browser-use

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。

项目地址：https://github.com/Significant-Gravitas/AutoGPT

【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

RAG

【开源免费】graphrag是微软推出的RAG项目，与传统的通过 RAG 方法使用向量相似性作为搜索技术不同，GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址：https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG，Agent，模型管理等一站式AI开发的工具平台，并且项目方一直持续维护。其中在任务编排方面相对领先对手，可以帮助研发实现像字节扣子那样的功能。

项目地址：https://github.com/langgenius/dify

【开源免费】RAGFlow是和Dify类似的开源项目，该项目在大文件解析方面做的更出色，拓展编排方面相对弱一些。

项目地址：https://github.com/infiniflow/ragflow/tree/main

【开源免费】phidata是一个可以实现将数据转化成向量存储，并通过AI实现RAG功能的项目

项目地址：https://github.com/phidatahq/phidata

【开源免费】TaskingAI 是一个提供RAG，Agent，大模型管理等AI项目开发的工具平台，比LangChain更强大的中间件AI平台工具。

项目地址：https://github.com/TaskingAI/TaskingAI

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。

项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0

无人直播

【开源免费】VideoChat是一个开源数字人实时对话，该项目支持支持语音输入和实时对话，数字人形象可自定义等功能，首次对话延迟低至3s。

项目地址：https://github.com/Henry-23/VideoChat

在线体验：https://www.modelscope.cn/studios/AI-ModelScope/video_chat

【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案，生成数字人形象进行直播，并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址：https://github.com/PeterH0323/Streamer-Sales