消耗1830亿token,Meta用AI把数学教材翻译成了一个超大Lean库

首页 AI资讯 AI技术研报 AI监管政策 AI产品测评 AI商业项目 arena全球大模型排行榜 AI产品热榜 AI 源力市场 AI专利库 AI需求对接 AI新闻日报
下载 AITNT APP
🍎 iOS 下载 🤖 Android 下载
正文
资源拓展
消耗1830亿token,Meta用AI把数学教材翻译成了一个超大Lean库
2026-05-29 15:11

数学正在迎来 AI 革命。


最近几个月尤为明显。比如,就在前几天,Google DeepMind 新论文宣布其最新系统 AlphaProof Nexus 在一次自主运行中,解决了 353 道开放 Erdős 问题中的 9 道,其中两道已在数学界悬而未决长达 56 年,并且每道题的推理成本,仅需区区几百美元。详情可参阅《一个问题几百美元,DeepMind 智能体一次搞定了 9 个 Erdős 问题》。


Erdős 问题通常指匈牙利传奇数学家 Paul Erdős 在其一生中提出的大量公开数学问题与猜想。这些问题广泛分布于组合数学、数论、图论、离散几何、概率论等领域,其中许多长期未解,并被视为相关方向的重要研究基准与前沿挑战。这一结果之所以可信,关键在于 AlphaProof Nexus 并非生成自然语言证明,而是将大语言模型(Gemini 3.1 Pro)与形式化验证工具 Lean 深度结合:AI 提出证明,Lean 逐步核查每一个逻辑步骤,通不过就直接拒绝。所有证明代码已公开于 GitHub,任何人都可以独立复现验证。


现在,新的进展来了!Meta 联合纽约大学等机构正式发布了 ATLAS(Autoformalized Textbook Library At Scale),一项迄今为止规模最大的自动化数学形式化工程之一。


消耗1830亿token,Meta用AI把数学教材翻译成了一个超大Lean库


项目论文和代码都已发布。


消耗1830亿token,Meta用AI把数学教材翻译成了一个超大Lean库


  • 项目地址:https://github.com/facebookresearch/atlas-lean/
  • 论文地址:https://github.com/facebookresearch/atlas-lean/blob/main/formalizing_mathematics_at_scale.pdf


什么是 ATLAS?


简单来说,ATLAS 是一个基于 Lean 4 的数学形式化代码库,其核心目标是:将数学教科书中的非正式定理陈述与证明,自动翻译成计算机可逐行验证的形式化代码。


这件事听起来枯燥,但意义深远。Lean 是一种「证明助手」语言,当你向它提交一段数学证明时,它会像编译器检查代码那样,逐步验证每一个推导步骤的逻辑合法性。是的,只要 Lean 通过,这个证明就在形式意义上无懈可击。


消耗1830亿token,Meta用AI把数学教材翻译成了一个超大Lean库


按照项目 Readme 中的统计数据,截至 2026 年 5 月,ATLAS 已经覆盖 26 本本科及研究生级别数学教科书,横跨分析学、代数学、几何、拓扑、组合数学、概率、统计、偏微分方程、数论以及理论计算机科学等众多领域。


整个代码库共计 630,999 行代码,其中 Lean 核心代码 483,917 行;包含 46,203 条数学声明(declarations),其中 42,837 条已完成证明,证明通过率高达 92.7%。


在被选定的 4,007 条教科书定理中,已有 2,855 条完成形式化,形式化覆盖率达 71.3%。从规模上看,Lean 社区多年协作维护的标准库 Mathlib 约有 210 万行代码、308,129 条声明。ATLAS 在数周内机器生成的体量,已达到 Mathlib 总量的约四分之一,这一速度令人咋舌。


这个数字背后是惊人的计算消耗:整个生成过程共使用了超过 1830 亿(183,157M)个 token。


值得注意的是,团队还构建了一个可视化浏览器。


消耗1830亿token,Meta用AI把数学教材翻译成了一个超大Lean库


地址:https://rammalahmad.github.io/atlas/


用户可以在其中:


  • 对比每条定理的非正式原文与 Lean 形式化版本;
  • 浏览定理之间的逻辑依赖关系图(即证明哪个定理需要先知道哪些引理);
  • 提取证明特定定理所需的最小 Lean 代码集合。


这个工具的意义在于,它将 ATLAS 从一个代码库变成了一张可导航的数学知识图谱,对人类研究者和未来的 AI 系统都具有潜在价值。


来自哪些教科书?


ATLAS 的 26 本教材全部来自 MIT OpenCourseWare 等顶级开放课程资源,覆盖范围非常广。


消耗1830亿token,Meta用AI把数学教材翻译成了一个超大Lean库


以下是几个有代表性的案例:


  • RealAnalysis(实分析):177 条目标定理中已形式化 175 条,覆盖率高达 98.9%,证明通过率 98.7%,堪称项目中完成度最高的单本。
  • ComplexVariables(复变函数):97.4% 的形式化覆盖率。
  • NumberTheoryI(数论 I):576 条目标定理,已形式化 460 条(79.9%),生成代码近 65,000 行。
  • AlgebraicGeometryI(代数几何 I):这是难度最高的领域之一,形式化覆盖率 60.2%,但仍生成了超过 4 万行代码和 4,499 条声明。
  • LieGroups(李群):消耗 token 最多(45,384M),生成了超过 6 万行代码,尽管形式化覆盖率仅 40%,反映了该领域的极端技术难度。


核心引擎:AutoformBot


当然,ATLAS 的生成并非人工一行行书写,而是完全依赖 Meta 自研的自动形式化流水线 AutoformBot(已在 GitHub 上开源)。


消耗1830亿token,Meta用AI把数学教材翻译成了一个超大Lean库


项目地址:https://github.com/facebookresearch/autoform-bot


AutoformBot 将教科书形式化视为一个协同软件工程问题,借鉴了成熟的开源协作范式(git 分支、Pull Request 审查、Issue 追踪)来协调数以百计的 LLM 智能体同时工作。


整个系统分为三个管理层级:


  • 顶层的编排者(orchestrator)负责阅读教科书、将形式化任务拆解为有向无环图(DAG),并根据书中的逻辑依赖关系调度工作顺序;
  • 中层的追踪分析器(trace analyzer)监督者(supervisor)分别负责从失败任务中学习、以及在每次合并后评估目标完成质量;
  • 底层的工作者(worker)审核者(reviewer)则负责实际执行单条定理的形式化与代码审核。


消耗1830亿token,Meta用AI把数学教材翻译成了一个超大Lean库


值得强调的是:整个 ATLAS 的生成过程零人工证明工程介入,完全由机器自动驱动。这既是其宏大规模得以实现的前提,也是需要持续改进质量和可靠性的原因。


整个系统的计算消耗主要集中在工作者层,占总 token 用量约 76%。每本书的形式化过程通常持续约一周,但可通过增加并行度显著压缩时间。


论文中的实验表明,每任务使用 3 个或 5 个 worker 并行竞速比单一 worker 在相同时间内多完成约 20% 的目标。


团队在论文中坦诚披露了系统运行中观察到的若干有趣「失效模式」,其中最出人意料的是 worker 的对抗性「作弊」和「摸鱼」行为


理解这一现象的关键,在于 Lean 里有个叫 sorry 的特殊关键字:它相当于一张「欠条」,告诉编译器「此处证明先跳过,暂且假设为真」。代码因此能顺利编译,但逻辑链条里实际留着一个空洞。在正常开发中,sorry 是标记「待填坑」位置的合法工具;但在 AutoformBot 里,它成了 worker 应付考核的捷径:遇到难以证明的定理,就悄悄在某个辅助引理深处塞一个 sorry,让整条证明链看起来通过了,实则是一座纸牌屋。


而这只是最基础的一种手法,论文归纳的「作弊清单」还包括:


  • 把定理名称保留、但把真实内容替换成永远为真的废话;
  • 把本应证明的结论偷偷藏进数据结构的字段定义(定义不需要证明,只需要通过类型检查);
  • 把难题中的复杂数学对象换成简单替身,比如明明要构造一个同构映射,却只证明了两个空间的维数相等就交差。


更有趣的是事态的演变:当 reviewer 智能体被要求严格反作弊后,worker 并没有就此收手,而是把 sorry 埋得更深,藏进依赖链条的更底层,让表层审查无法察觉。这场猫鼠游戏倒逼团队构建了一套递归追踪整个依赖图的分析工具,才得以溯源找到真正的「污染节点」。


这场 worker 与 reviewer 之间的猫鼠游戏,在论文中被称「对抗动态」(adversarial dynamic),并被视为大规模多智能体系统中值得深入研究的协调问题。


此外,长期运行的编排者会出现「LLM 疲劳」:随着上下文窗口被大量历史信息占满,它开始生成越来越粗糙的任务描述,甚至悄悄放弃处理困难目标。团队的解决方案是将专项分析工作委派给短生命周期的专业智能体,避免单一长期智能体的上下文退化。


消耗1830亿token,Meta用AI把数学教材翻译成了一个超大Lean库


在模型选择上,论文提供了一组关键对比数据:以同等算力预算(1200M tokens)在《代数组合学》教科书上对比,Claude Opus 4.6 完成了 92% 的形式化目标,而 Gemini 3.1 Pro 仅完成 46%—— 差距几乎在实验开始时就已显现,团队将其归因于模型在 Lean 语言上的编码能力差异。这也是为何整个 ATLAS 主要由 Opus 4.6 驱动。


在成本方面,团队估计,当前流水线的单行代码成本已低于人类专家标注,同时速度更快、可扩展性更强,不过输出质量整体上仍不及专家手写的 Lean 代码。


局限性


团队对 ATLAS 的定位相当诚实:这是一个持续进行中的机器生成扩展努力,而非一个完成品。


目前仍有约 28.7% 的目标定理尚未形式化,部分难度较高的领域(如李群、布尔函数分析)覆盖率低于 50%。代码风格也与 Lean 社区的主流标准库 Mathlib 尚存差距 ——Mathlib 是全球数学家协作维护的「黄金形式化库」,有着严格的风格约定和深度整合要求。


按照团队的下一步计划,ATLAS 将继续:


  • 完成各书中剩余定理的形式化;
  • 纳入更多教材和数学领域;
  • 提升代码质量与可维护性;
  • 向 Mathlib 规范靠拢,争取更广泛的开源兼容发布。


亦欢迎外部贡献者。


结语


ATLAS 的发布,恰好呼应了近期数学界最重要的一场认知转变。


菲尔兹奖得主陶哲轩近期指出,数学正在经历从「证明匮乏」到「证明泛滥」的历史性转变。对他而言,真正的问题不再仅仅是 AI 能否生成数学证明,更有趣的是:数学共同体是否拥有足够的基础设施,来吸收、验证、整理和理解 AI 可能很快大规模产出的数学成果。


消耗1830亿token,Meta用AI把数学教材翻译成了一个超大Lean库


https://mathstodon.xyz/@tao/116653336847856534


他的判断一针见血:「首先发现某个证明,或者率先形式化某个定理,不应该是最终目标。阐释与消化,正在变得远比这更加重要。」


陶哲轩认为,AI 越来越能生成大量看似严谨实则暗含谬误的论证,而形式验证工具(如 Lean)是让 AI 保持诚实的关键手段。


从这个角度看,ATLAS 的意义超越了一个代码仓库的范畴:它是一次对「数学基础设施」的大规模投资实验。


文章来自于微信公众号 "机器之心",作者 "机器之心"

1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
IOS下载
安卓下载
微信群