性能提升84%-166%！L-Zero仅靠强化学习解锁大模型探索世界的能力

性能提升84%-166%！L-Zero仅靠强化学习解锁大模型探索世界的能力 | 已开源

AI技术研报 2025-07-01 10:06

+8153 阅读

大模型可以不再依赖人类调教，真正“自学成才”啦？

新研究仅通过RLVR（可验证奖励的强化学习），成功让模型自主进化出通用的探索、验证与记忆能力，让模型学会“自学”！

性能提升84%-166%！L-Zero仅靠强化学习解锁大模型探索世界的能力 | 已开源

当前主流的LLM Agent依然高度依赖于提示词工程、复杂的系统编排、甚至静态规则表，这使得它们在面对复杂任务时难以实现真正的智能行为演化。

而来自招商局狮子山人工智能实验室的研究团队认为，RLVR范式是智能体（Agent）通往更高通用性和自主性的重要突破口。

于是，他们从两个关键层面出发构建了端到端Agent训练pipeline——L0系统：

智能体架构层面提出了结构化智能体框架——NB-Agent，在经典”代码即行动”（Code-as-Action）架构基础上进行扩展，使智能体能够操作记忆/上下文，从而获得类人类的记忆存储、信息总结与自我反思能力。

学习范式层面探索了一个核心问题：是否可以仅通过RLVR范式，引导智能体从零开始，学会如何规划、搜索、验证与记忆，最终解决复杂的多轮推理任务？

L0系统的框架、模型及训练集已全部开源，详细可见文末链接。

结构化智能体框架：Notebook Agent（NB-Agent）

性能提升84%-166%！L-Zero仅靠强化学习解锁大模型探索世界的能力 | 已开源

△NB-Agent的“Think-Code-Observe”循环

受到“代码即行动”的启发，NB-Agent选择使用代码作为通用的动作空间，并且遵循“读取-求值-输出”循环（Read-Eval-Print-Loop，REPL）的方式来和Jupyter Kernel交互。

每一步都是“Think-Code-Observe”：

Think：模型生成推理逻辑；

Code：将推理转化为Python代码；

Observe：执行代码并观察输出结果，反馈进入下一轮思考。

在这个过程中，长文本处理是智能体驱动模型（Agentic model）面临的核心挑战。

为此，研究团队提出一个创新方案：将模型的上下文窗口（context）与一个Python运行时的变量进行双向绑定。

这赋予了智能体主动管理自身记忆的能力，不再被动受限于上下文长度。

具体来说，研究团队提供了一个Notepad Python类作为结构化的外部记忆模块。智能体可以通过代码指令，将关键信息、推理步骤或中间结果写入Notepad。

这些信息会持久存在，并映射到上下文中一个稳定区域，确保在长程任务中不被遗忘。

同时，REPL的交互模式，使智能体能像程序员一样，将复杂信息存入变量、随时取用，从而彻底突破上下文的枷锁。

训练流程：端到端强化学习

性能提升84%-166%！L-Zero仅靠强化学习解锁大模型探索世界的能力 | 已开源

△L0的multi-turn训练过程

L0采用端到端强化学习进行智能体训练：

重新定义动作粒度一个动作不再是一个token，而是一个完整的“思考+代码段”；

提出Agentic Policy Gradient算法适应序列级动作定义，将策略梯度从单token级扩展到完整动作序列级；

构建多维度自动奖励函数包括最终答案正确性、代码执行情况、输出结构规范性等；

分布式训练架构采用轻量级沙箱隔离（Bubblewrap），支持高并发、低部署门槛的大规模RL训练。

测试：L0显著提升了模型在多个基准测试上的性能

在多个经典的开放领域问答数据集对L0系统进行测试，见证了智能体的惊人进化。

性能提升84%-166%！L-Zero仅靠强化学习解锁大模型探索世界的能力 | 已开源

以Qwen2.5-7B这个基础模型为例：

在L0-Scaffold（仅有架构，未经过RL训练）下，它就像一个刚拿到Notebook的新手，在HotpotQA上得分22%。

经过L0-RL（强化学习训练）后，它学会了如何高效搜索、验证信息、剔除冗余步骤，最终在同一任务上得分飙升至41%（提升84%）。

在SimpleQA数据集上，L0-RL带来的提升更加显著：EM（精确匹配）得分从30%暴涨到80%（提升166%）。

性能提升84%-166%！L-Zero仅靠强化学习解锁大模型探索世界的能力 | 已开源

L0在与其他工作的比较中也获得了具有竞争力的性能，在平均表现上明显优于Search-R1和ZeroSearch。

这表明L0框架为强化学习提供了更丰富和更具表现力的环境：其他方法训练智能体学习何时调用单个工具（例如搜索引擎），而L0框架训练智能体成为一个程序化的问题解决者，学习如何在结构化环境中组合动作、管理状态和进行推理。

这意味着什么？

在真实搜索之外，模型自己“学会”的搜索、规划和记忆行为，比直接调用API的规则式Agent更稳定、更泛化、也更强大！

它不再是生硬地调用工具，而是真正理解了怎么利用代码和这个世界交互，展现了通往更高级通用智能的清晰路径。

论文：https://github.com/cmriat/l0/tree/main/papers/l0.pdf

NB-Agent框架、训练pipeline和所有训练recipe：https://github.com/cmriat/l0

模型checkpoint：https://huggingface.co/cmriat/models

20K训练数据集：https://huggingface.co/cmriat/datasets

用checkpoint执行深度搜索任务的示例：https://github.com/cmriat/l0/blob/main/examples/nb_agent/deep_searcher_case.md

文章来自于微信公众号“量子位”。

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。

项目地址：https://github.com/browser-use/browser-use

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。

项目地址：https://github.com/Significant-Gravitas/AutoGPT

【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

AI搜索

【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架，其性能可与 Perplexity和ChatGPT-Web相媲美。

项目地址：https://github.com/InternLM/MindSearch

在线使用：https://mindsearch.openxlab.org.cn/

【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费，搜索结果包含文本，图片，视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目，测试搜索结果最好。

项目地址：https://github.com/miurla/morphic/tree/main

在线使用：https://www.morphic.sh/

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。

项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0