领先于Transformer！新架构首个1200万上下文模型SubQ，成本仅Opus的5%

AI技术研报 2026-05-06 14:57

+6179 阅读

你有没有想过，为什么 AI 读一篇短文游刃有余，却在面对一整个代码库时频频出错？

原因无他，因为注意力撑不住。

现代大模型的核心机制叫做注意力机制，每个词都要跟上下文里的所有其他词两两比较，才能理解彼此的关系。这个设计让模型变得无比强大，但也埋下了一个隐患：上下文越长，计算量就越夸张。放到百万 token 级别，这种代价几乎是天文数字。

于是有研究者开始琢磨缩短上下文的方法，把长文档切碎、检索、压缩，再喂给模型。这样一来模型拿到的，只是碎片化信息。

Subquadratic，这家专注于前沿 AI 研究与基础设施的公司，在最近的一篇文章中给出了一个不同的思路：与其把文档切短来喂给模型，不如先来改造模型，让它真正读得了长文档。

他们提出了一种名为 SubQ 的模型，其核心是 SSA（Subquadratic Sparse Attention），即亚二次稀疏注意力机制。这是一种经过线性扩展的注意力机制，专为长上下文检索、推理和软件工程工作负载而设计。

其核心需求很简单：企业 AI 需要解决的真正难题，本质上都是长上下文问题。代码库、合同、企业知识库、数据库、电子表格、研究语料，以及长时间运行的智能体会话。

以往，模型在回答问题时之所以经常失败，并不是因为答案不存在，而是因为相关证据分散在大量上下文中，彼此之间是间接引用的，只有同时理解多处信息时才真正有意义。

稠密注意力（Dense attention）成就了现代语言模型，但也让长上下文变得昂贵。每个 token 都要与其他所有 token 进行比较，因此注意力计算量会随着序列长度呈二次方增长。

SSA 改变了这种扩展方式。

它不是计算所有 token 两两之间的交互，而是通过内容相关的选择机制，将注意力路由到真正重要的位置，无论这些位置出现在序列中的哪里。

这点非常重要，因为长上下文能力并不只是更大的提示词窗口。名义上的上下文窗口，告诉你模型最多能处理多少 token；而真正有效的上下文窗口，决定了模型能在多少 token 中稳定地进行推理。SSA 瞄准的正是后一个问题。

在 MRCR v2 上，SubQ 能够跟上前沿的稠密注意力模型；在核心长上下文检索任务中，它达到了同等水平；并且在 100 万 token 场景下，相比稠密注意力实现了 52.2 倍的预填充加速。其结果是一种新的模型架构：让百万 token 上下文的服务成本更低、迭代速度更快。

领先于Transformer！新架构首个1200万上下文模型SubQ，成本仅Opus的5%

Subquadratic 联合创始人 Alexander Whedon 对这项研究进行了宣传，称 SubQ 是 LLM 智能的一次重大突破。

领先于Transformer！新架构首个1200万上下文模型SubQ，成本仅Opus的5%

据他介绍，SubQ 是首个基于完全亚二次稀疏注意力架构（SSA）构建的模型，也是首个拥有 1200 万 token 上下文窗口的前沿模型。

在 100 万 token 场景下，它比 FlashAttention 快 52 倍；而成本还不到 Opus 的 5%。

领先于Transformer！新架构首个1200万上下文模型SubQ，成本仅Opus的5%

Whedon 认为，当前基于 Transformer 的大语言模型，在计算上存在天然浪费。标准注意力机制会处理词与词之间所有可能的关系，但真正有意义、真正会影响结果的关系，其实只占很小一部分。

SubQ 要做的，就是从海量 token 关系中，找到那些真正重要的连接，并把算力集中到这些地方。

这也意味着，SubQ 有望将计算量降低近 1000 倍，为大语言模型的扩展提供一条不同于传统 Transformer 堆算力的新路径。

Subquadratic 为此发布了技术博客，让我们来深入地了解这一颠覆了传统 Transformer 架构的大模型新技术。

领先于Transformer！新架构首个1200万上下文模型SubQ，成本仅Opus的5%

博客标题：How SSA Makes Long Context Practical
博客链接： https://subq.ai/how-ssa-makes-long-context-practical

为什么长上下文仍未被解决

大多数企业级 AI 工作，并不像是在一小段文本上进行干净的问答。它更像是：

一个代码库：某个函数在一个模块中定义，却在几十个模块中被调用，并受到其他地方测试的约束；
一份合同：某项义务取决于一个定义、一个例外条款，以及相隔数页的引用条款；
一个科研流程：结论依赖于对多篇论文中证据的整合与协调；
一个长期运行的编程任务：早期的规划决策、中间修改、评审意见以及回归问题都至关重要。

这些都不是简单的查找问题，而是针对碎片化语料进行多跳推理的问题。

短上下文系统的失败，并不仅仅在于缺少了一些上下文，而在于它们被迫对碎片进行推理。当完整对象无法装入上下文时，系统通常通过分块（chunking）、检索（retrieval）、总结（summarization）和编排（orchestration）来弥补。

这些方法虽然有效，但也会引入新的失效模式。

RAG 系统能够保留语义相似性，但会丢失位置信息、层级结构、相邻上下文以及引用关系。一个片段可能包含正确的文本，却丢失了为什么它重要这种信息。

基于 Agent 的工作流会将大任务拆解为多个小的模型调用，但错误会在步骤间不断累积，编排逻辑变成人工编写的策略，同时上下文在多次调用之间被反复压缩。

最终，这类系统对人工设计的依赖，削弱了泛化能力。

行业的应对方式，是在模型之外不断构建脚手架。而 SSA 的尝试，是尽可能减少这些脚手架存在的必要性。

稠密注意力的成本

注意力机制本质上是内置在模型中的一种检索操作。每一个 token 都充当一个 query，与其他所有 token 进行比较，评估它们的相关性，并将这些信息聚合为自身的下一步表示。

这种机制之所以强大，是因为它让每个 token 都可以访问完整上下文；而它之所以昂贵，原因也正相同：每个查询都要与所有 key 逐一比较。最终形成的是一种 all-pairs 的计算，其成本会随着序列长度呈二次增长。

在较小的上下文规模下，这种开销尚可接受。但在真实问题所需的规模下，几十万到上百万 token，它就成为了主要瓶颈。上下文长度翻倍，计算成本并不会翻倍，而是变为四倍。原本可控的开销，很快就会在训练、推理和迭代过程中变得难以承受。

更糟的是，这其中大部分计算其实是无效的。在训练好的模型中，绝大多数注意力权重接近于零。模型依然执行了完整的比较过程，但真正对输出产生影响的交互只占很小一部分。

换句话说，稠密注意力不仅是二次复杂度，而且是浪费性的二次复杂度。

FlashAttention 改进了这种计算的执行方式。通过避免显式构建完整的注意力矩阵，并优化内存访问，它让稠密注意力在当前上下文规模下变得更加实用。但它并没有改变底层的扩展规律：比较次数依然不变，模型仍然执行二次规模的计算，只是执行得更高效。

同样的情况也出现在系统层面的各种补救方案中。检索 pipelines、上下文压缩、递归拆解以及基于 Agent 的编排，都在提升稠密注意力系统的可用性，但没有改变其扩展定律。它们是在绕开这一限制，而不是消除这一限制；二次成本依然是它们所绕行的那条边界。

这个领域多年来一直在尝试降低注意力机制的成本。难点从来不只是降低成本，而是在不破坏检索能力的前提下降低成本。

真正尚未解决的问题，并不是让注意力更快，而是更精确的目标：构建一种同时具备高效率、基于内容的路由能力，并能够在长上下文中从任意位置进行检索的机制。

这正是 SSA 试图解决的问题。

SSA 的工作原理

SSA（Subquadratic Selective Attention，亚二次选择性注意力）改变了注意力计算的分配方式。

注：与前文 SSA（Subquadratic Sparse Attention，亚二次稀疏注意力机制）不同

其核心思想是基于内容的选择（content-dependent selection）。对于每一个 query，模型会先判断序列中哪些位置值得关注，然后只在这些位置上精确计算注意力。

稠密注意力假设「任意一对 token 都可能重要」，SSA 去除了这一假设，只在真正有信息量的位置上计算注意力，其余部分直接跳过。

这使 SSA 同时具备三个关键特性：

计算与内存的线性扩展：注意力成本取决于被选中的位置数量，而不是完整序列长度，使长上下文在经济上变得可行。
基于内容的路由能力：模型根据语义决定「去哪里看」，而不是依赖位置模式，因此无论关键信息出现在何处，都可以被检索到。
从任意位置进行稀疏检索：不同于循环或压缩类方法，SSA 保留了从序列中任意远位置恢复具体信息的能力。

这一点在实践中非常关键。SSA 并不仅仅是对稠密注意力的「更快实现」，而是从根本上减少了模型需要执行的注意力计算量。这种减少，直接体现为速度提升。

以实际运行时间（wall-clock）衡量，在 B200 GPU 上、128K token 长度时，SSA 相比采用 FlashAttention-2 的标准注意力实现，实现了 7.2× 的输入处理加速。FlashAttention-3 在 B200 上相较于 FlashAttention-2 并未带来额外加速。

随着上下文长度增加，加速效果进一步扩大：

256K：13.2×
512K：23.0×
1M：52.2×

这也再次印证：SSA 的优势，正是在长上下文场景中呈现指数级放大。

领先于Transformer！新架构首个1200万上下文模型SubQ，成本仅Opus的5%

这正是对生产环境至关重要的「吞吐反转」：随着上下文长度的增加，稠密注意力相对于 SSA 会变得更慢。而 SSA 的优势，恰恰在长上下文工作负载最有价值的区间内不断扩大。

SSA 的训练

架构是必要条件，但并不充分。一个模型可以拥有很长的上下文窗口，却仍然无法很好地利用它。SSA 的训练目标，是让长上下文的使用变得可靠，而不仅仅是可行。

研究团队采用了三阶段训练流程：

预训练（Pre-training）：建立基础语言建模能力，以及选择机制所依赖的长上下文表示。
监督微调（Supervised fine-tuning）：将模型行为引导至企业工作负载所需的指令遵循、结构化推理和代码生成模式。
强化学习（Reinforcement learning）：针对那些难以仅通过监督样本诱导出的行为进行优化，例如稳定的长上下文检索能力，以及在编码时主动利用可用上下文，而不是退回到局部推理。

最后这一阶段至关重要。长上下文的失败往往「看起来是合理的」。

模型可能会基于邻近上下文作答，因为这些证据更容易使用，即使决定性证据出现在序列更早的位置；它可能生成一个在局部看似正确、却违反其他位置定义接口的代码补丁；它可能对先前决策进行概括，而不是保留应当约束后续步骤的精确条件。

SSA 的强化学习阶段正是围绕这些失效模式设计的。训练数据强调高信息密度、具备跨引用结构的长文本来源。这类数据会迫使选择机制学习在大跨度位置之间进行「路由」。目标不是记住基准，而是让模型学会无论关键信息位于何处，都能关注到它。

评估结果

研究团队认为，需要评估的是「功能上下文（functional context）」，而非「名义上下文（nominal context）」：一个模型宣称的上下文窗口大小，并不能说明它真正能利用多少上下文。关键在于模型是否能够在这个窗口内检索、关联并推理分布在其中的证据。

研究团队从两个维度对 SubQ 进行评估：

部署可行性（Deployment viability）：计算量削减与实际运行时间（wall-clock speed）
检索能力（Retrieval capability）：RULER 与 MRCR v2

计算与速度

SSA 的线性扩展特性意味着，当上下文长度翻倍时，注意力机制的计算成本仅随之翻倍，而不是像传统二次复杂度那样增长四倍。在 100 万 token 规模下，相比标准的二次注意力机制，其注意力 FLOPs 降低了 62.5×。

领先于Transformer！新架构首个1200万上下文模型SubQ，成本仅Opus的5%

从产品角度来看，「实际运行时间」（wall-clock speed）才是更关键的指标。在 100 万 token 的规模下，SSA 相比稠密注意力实现了 52.2× 的预填充加速。这种差距，本质上决定了一套长上下文系统究竟是表现为一个可交互的工具，还是更像一个离线批处理任务。

领先于Transformer！新架构首个1200万上下文模型SubQ，成本仅Opus的5%

RULER

RULER 用于评估模型在超越简单大海捞针检索任务之外的行为表现，重点涵盖多跳检索、信息聚合、变量跟踪以及选择性过滤等能力。

领先于Transformer！新架构首个1200万上下文模型SubQ，成本仅Opus的5%

对于企业级工作流来说，这一点至关重要，因为多跳任务会产生「连锁放大效应」：一旦在链条早期遗漏了某个关键引用，后续的每一步推理都可能被污染，最终导致整体结论失真。

MRCR v2

MRCR v2 是当前要求最严苛的检索类基准之一。它重点评估模型在长上下文中定位并整合多个非相邻证据片段的能力，而不是仅仅依赖局部信息完成推理。

领先于Transformer！新架构首个1200万上下文模型SubQ，成本仅Opus的5%

SubQ 得分为 65.9%，处于 Claude Opus 4.6 的 78 分区间之内，并领先于 GPT‑5.4 的 39 分以及 Gemini 3.1 Pro 的 23 分。

这一结果清晰地揭示了名义上下文与功能上下文之间的差异。一个模型也许能够接收很长的输入，但仍然无法在这些输入之上进行可靠的推理。MRCR v2 正是通过要求模型检索并整合证据，而不仅仅是处理 token，从而暴露了这一差距。

SWE-Bench Verified

SWE-Bench Verified 用于评估模型在真实 GitHub issue 上的端到端软件工程能力。它并非一个纯粹的检索型基准，而是测试模型是否能够基于对代码库的理解来定位 bug、推理实现约束，并生成可行的补丁。

领先于Transformer！新架构首个1200万上下文模型SubQ，成本仅Opus的5%

文章来自于"机器之心"，作者 "冷猫、陈陈"。

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。

项目地址：https://github.com/browser-use/browser-use

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！

项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址：https://github.com/n8n-io/n8n

在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。

项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file

【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用：https://vectorvein.ai/（付费）

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。

项目地址：https://github.com/Significant-Gravitas/AutoGPT

【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

知识库

【开源免费】FASTGPT是基于LLM的知识库开源项目，提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信，飞书的AI项目都基于该项目二次开发。

项目地址：https://github.com/labring/FastGPT

RAG

【开源免费】graphrag是微软推出的RAG项目，与传统的通过 RAG 方法使用向量相似性作为搜索技术不同，GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址：https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG，Agent，模型管理等一站式AI开发的工具平台，并且项目方一直持续维护。其中在任务编排方面相对领先对手，可以帮助研发实现像字节扣子那样的功能。

项目地址：https://github.com/langgenius/dify

【开源免费】RAGFlow是和Dify类似的开源项目，该项目在大文件解析方面做的更出色，拓展编排方面相对弱一些。

项目地址：https://github.com/infiniflow/ragflow/tree/main

【开源免费】phidata是一个可以实现将数据转化成向量存储，并通过AI实现RAG功能的项目

项目地址：https://github.com/phidatahq/phidata

【开源免费】TaskingAI 是一个提供RAG，Agent，大模型管理等AI项目开发的工具平台，比LangChain更强大的中间件AI平台工具。

项目地址：https://github.com/TaskingAI/TaskingAI

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。

项目地址：https://github.com/InternLM/xtuner

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。

项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0