让 AI 实现自我进化是人类一直以来的梦想。
早在 2003 年,AI 先驱、LSTM 之父 Jürgen Schmidhuber 就提出过一种名为「哥德尔机(Gödel Machine)」的构想——它使用一种递归的自我改进协议,如果能够证明新代码的策略较佳,就会重写自己的代码。但这终究只是一个假想。
近年来,关于模型自我学习、进化的研究逐渐多了起来,很多研究者的目标在逐渐从单纯的「训练模型」向「让模型学会自我学习和自我进化」转变,谷歌最近发布的 AlphaEvolve 就是其中的重要代表。
在过去的一周,这一方向的进展尤其丰富。有人发现,几篇关于「让 LLM(或智能体)学会自我训练」的论文在 arXiv 上集中出现,其中甚至包括受「哥德尔机」构想启发而提出的「达尔文哥德尔机」。或许,AI 模型的自我进化能力正在加速提升。
在这篇文章中,我们将详细介绍最近的几篇论文,它们分别是:
人工智能研究的一个长期目标是创造能够持续学习的 AI 系统。实现这一目标的一条诱人路径是让 AI 通过重写自身代码(包括负责学习的代码)来实现自我改进。这一由 Jürgen Schmidhuber 数十年前提出的构想被称为「哥德尔机」,是一种假想中的自我改进型 AI。当它在数学上证明存在更优策略时,它会通过递归地重写自身代码来优化问题解决方案,因此成为元学习(即「学会学习」)领域的核心概念。
虽然理论上的哥德尔机能确保可证明的良性自我修改,但其实现依赖于一个不切实际的假设:AI 必须能在数学上证明代码修改会带来净效益才会实施变更。
针对此问题,Sakana AI 与不列颠哥伦比亚大学 Jeff Clune 实验室合作,提出了一种更可行的方案:利用达尔文进化等开放式算法的原理,通过实证检验来寻找能提升性能的改进方法。
他们将这一成果命名为「达尔文哥德尔机(DGM)」。DGM 系统利用基础模型提出代码改进方案,并采用开放式算法的最新创新来搜索不断增长的多样化优质 AI 智能体库。实验表明,DGM 获得的算力越多,自我改进效果就越显著。鉴于依赖学习的 AI 系统终将超越人工设计系统这一明确趋势,DGM 很可能在短期内超越人工设计的 AI 系统。
第一个 DGM 是一个编码智能体,它能够:
达尔文哥德尔机是一种通过重写自身代码来提升编程任务性能的自我改进型编程智能体。它能实现多种自我改进,包括:增加补丁验证步骤、优化文件查看功能、增强编辑工具、生成并排序多个解决方案以选择最优选项,以及在实施新修改时记录历史尝试记录(包括失败原因)。
达尔文哥德尔机通过运用开放式探索原则,逐步构建起一个不断扩增的智能体库。该系统通过交替执行自我修改与下游任务评估的方式,持续创建新智能体并对其进行评分。
在 sw-bench 上,DGM 自动将其性能从 20.0% 提高到 50.0%。在 Polyglot 上,DGM 的表现从最初的 14.2% 跃升至 30.7%,远远超过了 Aider 手工设计的代表性智能体。这些可观的收益证明了 DGM 发现并实现对其自身代码的有益更改的能力。
通过可验证奖励进行的强化学习显著增强了大语言模型的推理能力,尤其是在数学和编码方面。然而,这种方法依赖于人工创建的真实标签验证器,这使得为每个问题生成奖励信号的成本高昂且受到限制。在这项工作中,研究团队提出以下问题:
受先前基于一致性自我提升研究的启发,研究团队引入了一种简单而有效的自我训练强化学习方法论,称为自我奖励训练(Self-Rewarded Training,SRT)。该方法在强化学习训练期间,通过模型生成的多个解决方案之间的一致性来评估正确性,从而在没有标注数据的情况下提供自监督信号。
SRT 概览。在 RLVR 方法中,系统通过真实验证器生成用于强化学习训练的奖励信号。与之相反,SRT 方法并不依赖真实验证器,而是通过模型自身生成结果的多数投票机制来估算真实值,并利用这一替代性奖励信号来训练模型。
研究团队通过经验证明,在早期训练阶段,SRT 能够达到与那些在黄金标准答案上进行显式训练的标准强化学习方法相媲美的性能。测试数据集包括:AMC、AIME24、AIME25。 然而,研究团队发现其性能最终会崩溃,例如在最右图中展示的 DAPO 数据集上的训练情况。
自我训练必然会崩溃
研究团队分析了 SRT 在具有挑战性的 DAPO 数据集上训练时的训练动态。
这些发现表明,模型通过产生一致(见上方第二个图)但错误(见上方最左图)的答案来学习最大化自我分配的奖励。人工检查证实了这一点:在崩溃之后,模型的输出会退化为随机的词元序列,并带有一个固定的、与提示无关的答案(例如,「答案是 1」)。这种行为有一个简单而精确的理论依据:
由 SRT 目标定义的强化学习优化问题明确鼓励输出之间的一致性,而不考虑其正确性。因此,在该目标下的最优策略会退化为无论输入如何都产生相同的答案,从而人为地最大化奖励。在这种代理 (proxy) 目标上持续进行自我训练,自然会驱动模型朝向这种平凡解 (trivial solution) 发展,特别是当这种解比解决实际任务更简单时。
缓解策略可能是有效的
研究团队提出了一些策略来缓解奖励作弊 (reward hacking),为未来维持模型持续改进的有效方法奠定基础。
(i)早停(Early Stopping):一个小的验证集可以可靠地检测到模型的最佳性能点,并防止在自我训练过程中发生崩溃。对于所有的留出集(heldout sets),最佳性能点几乎出现在同一位置,因此使用任何一个留出集进行早停都是有效的。
(ii)使用离线生成的标签进行自我训练:一种有效的方法是从一个稳定的、先前固定的检查点生成伪标签,而不是利用来自演进中的策略的标签。这样做可以稳定训练,同时达到与 SRT 相当的性能。
(iii)结合课程学习的自我训练:研究团队假设,在更具挑战性的数据集上训练时,模型崩溃会发生得更快,这一推测与研究团队的经验性发现一致。其直觉是,在更具挑战性的数据集上,模型更容易放弃其预训练知识,转而优化自我一致性,而不是真正学习解决潜在的任务。研究团队利用这一假设,通过根据(a)通过率和(b)多数投票的频率来识别 DAPO 数据集中「最简单」的子集,从而实施一种课程学习策略(更多细节请参见论文)。
在这些课程子集上的性能达到了与在整个 DAPO 数据集上使用真实标签进行标准强化学习训练相当的水平。这些富有前景的结果表明,课程学习策略可能会进一步扩展 SRT 的益处,为未来的研究开辟了激动人心的途径。
近年来,多模态大语言模型在视觉问答、图文推理等任务上取得了显著进展。然而,要在这些强大的基础模型之上进一步提升性能,往往需要依赖高质量人工标注数据进行监督微调或强化学习,这在成本与可扩展性上面临严峻挑战。过往研究虽然探索了无监督后训练方法,但大多流程复杂、难以迭代、数据利用率低。
在这篇论文中,作者首次探索了在完全无监督场景下,通过强化学习框架 GRPO 实现多模态大模型的持续自我改进。他们提出了一种简洁而高效的框架:MM-UPT(Multi-Modal Unsupervised Post-Training),并在多个图文数学推理 benchmarks 上验证了其有效性。
MM-UPT 的核心思想主要为以下两个关键点:
整个流程如下:
这整个过程无需任何外部监督信号或真实答案,使得模型可以基于自身的「共识」行为进行强化学习,从而实现持续的性能提升。
作者在四个多模态数学推理基准测试集(MathVisioan、MathVista、We-Math、MathVerse)上进行了广泛实验。表格 1 的结果显示:
在标准数据集上遮盖答案进行无监督训练后,作者进一步探究了一个更具挑战的问题:模型能否通过自己生成训练数据来实现自我提升?为此,MM-UPT 引入了两种简单的合成数据生成策略:
In-Context Synthesizing(上下文引导生成)
模型在给定图像、原问题和原答案的前提下生成一个新的问题。生成的问题与原问题在结构上相近,相当于进行语义改写或条件替换来进行数据增强。
仅提供图像输入,模型完全基于图片内容生成问题。这种方法生成的问题更加多样,但也存在一定概率的幻觉。 无论使用哪种方式生成问题,MM-UPT 都采用多数投票生成伪标签,驱动模型进行强化学习更新。
表格 2 中的结果显示:即便训练数据完全由模型自己生成,MM-UPT 仍然能显著提升多模态推理能力,甚至在部分任务上超越使用原始问题的数据。这表明,多模态大模型具备一定的「自我提问 + 自我优化」的潜力,为未来依靠 AI 自行生成训练语料进行自我进化的范式提供了坚实基础。
即:多数投票比单次预测更可靠。这就是 MM-UPT 中用多数投票作为伪标签的合理性所在 —— 它可以构造一个有效的自监督奖励信号。但作者也指出了边界条件:当模型对任务缺乏先验时(如在 ThinkLite-11K 这种困难的数据集上),多数投票会反而强化错误预测,导致性能下降。
总的来说,MM-UPT 为多模态大模型的后训练阶段提供了一种无需人工标注、无需外部奖励模型的自我提升方式,展现了强化学习在无监督场景下的潜力。后续可以探索结合更强的自我评估机制(如 LLM-as-a-Judge)、复杂 reward 设计等,进一步拓展 MM-UPT 框架的能力边界。
在这篇论文中,研究团队介绍了一种名为 UI-Genie 的自改进框架,旨在解决 GUI 智能体中的两大核心挑战:一是轨迹结果的验证十分困难,二是高质量训练数据的规模化获取不易。针对这两个挑战,研究团队分别提出了一种奖励模型和一个自改进流水线。
该奖励模型,即 UI-Genie-RM,采用了一种图文交错的架构,能够高效处理历史上下文信息,并统一了动作级别和任务级别的奖励:
为了支持 UI-Genie-RM 的训练,研究团队开发了精心设计的数据生成策略,包括基于规则的验证、受控的轨迹损坏以及难负例挖掘。
为应对第二个挑战,研究团队设计了一个自改进流水线,通过在动态环境中进行奖励引导的探索和结果验证,逐步增强智能体和奖励模型的能力,从而扩展可解决的复杂 GUI 任务范围。
在模型训练方面,研究团队生成了 UI-Genie-RM-517k 和 UI-Genie-Agent-16k 数据集,这不仅是首个针对 GUI 智能体的奖励专用数据集,同时也展示了无需人工标注即可生成高质量合成轨迹的能力。
UI-Genie 数据集统计信息。UI-Genie-RM-517k 是首个专用于 GUI 智能体的奖励数据集,而 UI-Genie-Agent-16k 则包含了无需人工标注的合成轨迹。
实验结果表明,经过三代数据与模型的自改进迭代,UI-Genie 在多个 GUI 智能体基准测试中均达到了业界领先水平。研究团队已将完整的框架实现和生成的数据集开源,以促进该领域的进一步研究。
UI-Genie、Qwen2.5-VL 和 UI-TARS 在三个基准上的性能比较。
关于模型自我改进的论文还有很多,如果你也在做相关研究,欢迎在评论区留言推荐自己的工作。
文章来自微信公众号 “ 机器之心 ”
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner