「微调已死」再添筹码,谷歌扩展AI自我进化范式,成功经验与失败教训双向学习

AITNT
正文
资源拓展
「微调已死」再添筹码,谷歌扩展AI自我进化范式,成功经验与失败教训双向学习
2025-10-15 12:14

这几天,关于「微调已死」的言论吸引了学术圈的广泛关注。


一篇来自斯坦福大学、SambaNova、UC 伯克利的论文提出了一种名为 Agentic Context Engineering(智能体 / 主动式上下文工程)的技术,让语言模型无需微调也能实现自我提升!


其实,在更早的时候,谷歌一篇名为《ReasoningBank: Scaling Agent Self-Evolving with Reasoning Memory》的论文提出了一个与 Agentic Context Engineering 类似的概念 ——ReasoningBank,用于智能体系统的创新记忆框架,从智能体自身判断的成功和失败经验中提炼并组织记忆项,无需真实标签


如图 1 所示,利用 ReasoningBank 不仅可以捕捉成功中的有效策略,还能从失败中提取重要的预防教训,将这些内容抽象成一系列可操作的原则。这个过程在一个闭环中运行:当面对新任务时,智能体从 ReasoningBank 中检索相关记忆来指导其行动。随后,新的经验被分析、提炼并重新整合回 ReasoningBank,使得智能体能够不断进化并提升其战略能力。


「微调已死」再添筹码,谷歌扩展AI自我进化范式,成功经验与失败教训双向学习


通过将 ReasoningBank 作为强大的经验学习者,谷歌研究了经验扩展,以建立记忆与测试时扩展之间的强大协同效应。谷歌并不通过增加更多任务来扩展经验的广度,而是通过深入探索每个单一任务来扩展经验的深度。


此外,谷歌引入了记忆感知的测试时扩展(MaTTS),在并行和顺序设置下都进行了应用,通过生成多样的探索来提供对比信号,使 ReasoningBank 能够合成更具普遍性的记忆。


最终,在记忆与测试时扩展之间实现了协同效应:高质量的记忆将扩展引导到更有前景的路径,而丰富的经验则进一步锤炼出更强的记忆。这种正反馈循环使得基于记忆的经验扩展成为智能体的一个新扩展维度。


「微调已死」再添筹码,谷歌扩展AI自我进化范式,成功经验与失败教训双向学习


论文地址:https://arxiv.org/pdf/2509.25140


对于谷歌开发的这种能实时从自身错误中学习的 AI,网友纷纷看好。


「微调已死」再添筹码,谷歌扩展AI自我进化范式,成功经验与失败教训双向学习


方法概览


下图为 ReasoningBank 整体框架,其中经验被提炼成结构化的记忆项,包含标题、描述和内容。对于每个新任务,智能体从中检索相关项与环境进行互动,并从成功和失败的轨迹中构建新的记忆项。这些记忆项随后被整合到 ReasoningBank 中,形成一个闭环的记忆过程。


「微调已死」再添筹码,谷歌扩展AI自我进化范式,成功经验与失败教训双向学习


其中,ReasoningBank 包含了以下几个关键组件:


记忆结构。ReasoningBank 中的记忆项是从过去的经验中设计和提炼出的结构化知识单元,它们抽象了低级执行细节,同时保留了可转移的推理模式和策略。每个记忆项包含三个部分:(i) 标题,作为简洁的标识符,总结核心策略或推理模式;(ii) 描述,提供记忆项的简短一句话总结;(iii) 内容,记录从过去经验中提炼出的推理步骤、决策理由或操作见解。提取出的记忆项既具有人类可理解性,又具备机器可用性,有助于高效使用和与智能体的集成。


ReasoningBank 与智能体的集成。配备 ReasoningBank 的智能体可以从一个精心挑选的可转移策略池中汲取经验来指导决策。这使得智能体能够回忆有效的见解,避免以前观察到的陷阱,并更稳健地适应未见过的查询。集成过程分为三个步骤:(i) 记忆检索,(ii) 记忆构建,(iii) 记忆整合。


MaTTS:记忆感知的测试时扩展。ReasoningBank 与测试时扩展的直接结合如图 3 (a) 所示,其中更多的轨迹被独立地转换为更多的记忆项。不过,这种基础方法并不理想,因为它没有利用来自同一问题上冗余探索所产生的对比信号,这限制了测试时扩展所带来的性能优势。为此,谷歌提出了 MaTTS,它是测试时扩展与 ReasoningBank 的全新集成。与基础方法不同,MaTTS 刻意从扩展过程中生成的大量成功和失败轨迹中学习,以便更有效地策划记忆。谷歌为 MaTTS 设计了两种互补的实现方式:并行扩展和顺序扩展,如图 3 (b) 和 3 (c) 所示。


「微调已死」再添筹码,谷歌扩展AI自我进化范式,成功经验与失败教训双向学习


并行扩展。在并行设置中,谷歌在检索到的记忆项的指导下,为同一查询生成多个轨迹。通过对不同轨迹进行比较,智能体可以识别一致的推理模式,同时过滤掉虚假的解决方案。这个过程通过单一查询的多次试验促使多样化的探索,从而实现更可靠的记忆策划。


顺序扩展。在顺序扩展中,谷歌在初步完成后,迭代地在单一轨迹内完善推理,遵循自我精炼的原则。在这个过程中,自我精炼中生成的中间笔记也被用作宝贵的记忆信号,因为它们捕捉了推理尝试、修正和见解,这些内容可能不会出现在最终的解决方案中。


实验结果


谷歌在具有挑战性的基准测试上进行了广泛的实验,包括了网页浏览(WebArena、Mind2Web)和软件工程(SWE-Bench-Verified)任务。


表 1、2、3 分别展示了 ReasoningBank 在 WebArena、Mind2Web 和 SWE-Bench-Verified 上的评估结果,表明了在有效性(相对提高高达 34.2%)和效率(减少 16.0% 的交互步骤)上均优于基准方法。


「微调已死」再添筹码,谷歌扩展AI自我进化范式,成功经验与失败教训双向学习


「微调已死」再添筹码,谷歌扩展AI自我进化范式,成功经验与失败教训双向学习


「微调已死」再添筹码,谷歌扩展AI自我进化范式,成功经验与失败教训双向学习


特别地,ReasoningBank 与 MaTTS 的协同效果最好,使其成为基于记忆的经验扩展的关键组成部分。谷歌在 Webarena-Shopping 子集上实验了 MaTTS 与 Gemini-2.5-flash 的结合。默认下,MaTTS 集成了 ReasoningBank,但它也可以使用其他记忆机制。


为了研究整体的扩展效果,谷歌进行了以下基准测试:(i) 没有记忆机制的 MaTTS(MaTTS w/o memory),这代表了没有记忆机制的扩展设置;(ii) 没有聚合的 MaTTS(MaTTS w/o aggregation);(iii) MaTTS,用于展示与扩展因子 k 相关的效果。值得注意的是,k = 1 是没有扩展的设置。


结果如图 4 所示,表明并行扩展和顺序扩展都能提升性能。


「微调已死」再添筹码,谷歌扩展AI自我进化范式,成功经验与失败教训双向学习


更多实验结果请参阅原论文。


文章来自于微信公众号 “机器之心”,作者 “机器之心”

1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner

4
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales

添加客服微信openai178,进AITNT官方交流群
IOS下载
安卓下载
微信群