清华推出AI数学家！独立完成数学理论难题，自动调用基本定理、构建证明思路

AI技术研报 2025-06-05 11:32

+9360 阅读

AI数学家来了！清华团队出品——

他们推出AI Mathematician（AIM）框架，推理模型也能求解前沿理论研究，并且证明完成度很高。

比如一道吸收边界条件问题。这是分析中涉及方程的经典理论问题，通过构造人工边界得到较为精确的近似解。

AIM部分求解过程如下：

清华推出AI数学家！独立完成数学理论难题，自动调用基本定理、构建证明思路

AIM给出了方程的能量估计，这是求解这个问题的关键的中间结论。它不仅正确推导了这个结论，在后续证明中加以运用。

清华推出AI数学家！独立完成数学理论难题，自动调用基本定理、构建证明思路

这是AIM对于方程的近似解的构造和存在唯一性的证明过程。尽管部分运算细节并没有展示出来，但是这里的证明思路和定理运用都是正确的，也得到了整个问题中的关键结论。

本次成果的作者包括刘远航、黄砚星、王彦桥、李鹏、刘洋，其中刘远航、黄砚星、王彦桥为论文共同第一作者。

清华推出AI数学家！独立完成数学理论难题，自动调用基本定理、构建证明思路

AIM数学家智能体

传统大语言模型在数学领域的突破长期局限于竞赛级问题，LRMs快速发展的数学推理能力也让人类数学工作者期待可以使用大模型进行前沿数学研究。

当前数学理论的研究主要有以下两大挑战：

问题复杂度数学理论的推导和证明往往需要复杂的思考过程和推导细节，需要引理证明和跨领域的知识整合。这样的复杂度远超竞赛题的求解模式。
证明严谨性数学研究的证明内容需要经过严格验证和精确的分析，而自然语言证明的评估一直缺乏有效方法。

基于此，AIM框架首次将LRMs的推理能力引导延伸至前沿数学研究，在人工智能探索数学理论的道路上迈出了关键的一步。

清华推出AI数学家！独立完成数学理论难题，自动调用基本定理、构建证明思路

技术架构上，主要包括三大模块协作驱动自动理论研究。

1、探索模块：通过开放推理，生成猜想和引理，构建问题的多种探索思路；

2、验证模块：基于悲观验证机制，对证明过程进行多角度并行评估，确保证明严谨性准确性；

3、修正模块：根据验证反馈优化证明结构，并且可以接收人为修正意见，确保输出结论的正确性。

人类工作者首先提供探究课题的一些问题设定和求解结论，也可以包含方法信息，例如术语的定义，或者一些初步结论。这些内容将视为系统提示传递给三个模块。在这之后，会将数学研究需要求解的问题传递给这个智能体。AIM将尝试一步一步地解决这个问题，并输出其所有中间过程和结论。

为了应对数学理论的挑战，更好的激发LRMs在数学研究的推理能力，提高证明的完成度，AIM通过以下两大核心策略攻克难题：

1、“探索+记忆”机制

智能体围绕研究命题自由探索可行的方向。通过验证，逐步生成中间猜想完成理论的推导证明。如此可以有效拆解过长思维路径，通过多轮递进自动形成研究思路。

2、“检验与修正”机制

检验模块中，有多重LRM并行评审证明过程，取最严苛意见拒绝不严谨证明。再将评估意见迭代反馈给修正模块，自动修正完善每一处证明细节。

在这样的迭代反馈机制下，AIM会仔细思考每一种证明思路，完善中间结论的证明，最后给出整个问题的逐步证明过程。

实验验证：求解四个理论问题

AIM尝试求解了四个数学上具有挑战性的研究问题，三个已证明的定理和一个开放的问题。

将单个LRM直接应用于这些问题不会得到正确的数学推理结果，并且不能构成数学理论中的有效证明过程。而AIM在其中自主构造关键引理，给出证明过程或者提供不平凡的新结论。

清华推出AI数学家！独立完成数学理论难题，自动调用基本定理、构建证明思路

量子算法问题

LCHS方法是科学计算中的一种高效计算方法。Black-Scholes-Merton模型是金融学中用于欧式期权定价的基本数学框架。这个问题就是利用LCHS来模拟BSM模型，并设计相应的量子算法。实验表明，AIM可以给出比较详细的证明，基本解决这个问题。

吸收边界条件

这是分析中涉及方程的经典理论问题，通过构造人工边界得到较为精确的近似解。给出合理的思路后，AIM可以正确运用提到的方法与技术。最后给出了一个完成度很高的证明。

高对比度极限

这是一个关于Lame-Stokes系统参数极限的误差分析问题，是方程分析理论中的一个复杂问题，也是实际应用中的一个重要特例。虽然推导中存在一些不严谨之处，但是AIM给出了核心结论的主要证明过程和推导细节，并且还探索出了一些新的正确的结论。

均匀化问题

均匀化理论是方程分析和应用数学的一个重要研究领域，专注于推导具有多尺度结构的材料或系统的等效宏观性质，如周期性或随机特征。在探索这一问题的过程中，AIM给出了一些正确的结论和思路，对数学家完成这一研究具有指导意义。

实验表明，AIM 生成的证明虽仍需数学工作者进行局部调整，但已能合理运用数学技术，覆盖核心逻辑链，甚至在部分问题中洞察非平凡结论，显著加速研究进展。

总结

AIM在数学研究中展现了基本的数学研究能力。它可以在证明过程中调用基本定理，并应用这些定理完成证明过程。它还展示了识别和实现人工提供的指导和提示的能力，最终按照指示完成证明过程。

AIM可以尝试完成各种数学理论的证明。它可以运用正确的证明思路，提供关键的中间过程和核心结论。在数学理论研究中，数学家们经常会产生多个证明思路和猜想。这些潜在的方法可以系统地输入到AIM中，用于自动生成证明尝试。然后，数学家可以分析输出结果，以确定方法的可行性，从而推进理论证明。后续也可以进一步根据实验结果，尝试更多的方法和思路，继续使用AIM来探索数学理论的证明与结论。

不过，AIM数学家智能体仍处于非常早期的阶段。目前出现的问题包括重复探索，对特定的数学设定理解能力不够强以及缺乏部分证明细节等问题。当然最核心的是当前的LLM的推理能力还并不够强大，因此在很多较为前沿的复杂数学理论的研究中还是略显稚嫩。

未来将通过记忆反思机制、多智能体协作和强化学习优化等途径进一步提升能力。随着算法与算力的迭代，人工智能有望成为数学研究的核心驱动力，推动人类向更深远的科学未知发起挑战。

论文地址： https://arxiv.org/abs/2505.22451

文章来自于“量子位”，作者“清华AIM团队”。

清华推出AI数学家！独立完成数学理论难题，自动调用基本定理、构建证明思路

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。

项目地址：https://github.com/browser-use/browser-use

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。

项目地址：https://github.com/Significant-Gravitas/AutoGPT

【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md