你的设想被证实了！不微调模型也能微调Agent，Memento霸榜GAIA

你的设想被证实了！不微调模型也能微调Agent，Memento霸榜GAIA｜UCL最新

AI技术研报 2025-09-01 09:58

+11628 阅读

你或许也有过这样的猜想，如何让AI智能体（Agent）变得更聪明、更能干，同时又不用烧掉堆积如山的算力去反复微调模型？前天一个来自UCL《Memento》的框架给出了一个非常有意思的答案，它就像是在说，与其让AI去“死记硬背”新知识（微调），不如教它学会“翻阅过去的日记本”（学习经验），在被誉为智能体“高考”的GAIA基准上击败众多对手强势登顶，关键的消融实验和泛化测试也证明，其核心的“经验记忆”机制正是性能飞跃的关键，能带来高达9.6%的绝对性能提升，并展现出持续学习、越用越强的潜力。凭借这样扎实的成果，该项目仅发布三天GitHub就收获了600star，并且作者在几小时前刚开源了Memento的核心代码，https://github.com/Agent-on-the-Fly/Memento，这个思路真的值得我们深入探讨一下。

你的设想被证实了！不微调模型也能微调Agent，Memento霸榜GAIA｜UCL最新

当前的两难困境：要么“呆板”，要么“昂贵”

您在开发中肯定也感觉到了，我们现在打造LLM智能体，基本上就两条路线，但研究者指出它们都存在明显的局限性

固化工作流范式：这类智能体依赖于复杂的提示词工程，开发者预先设定好的、僵化的工作流程。它们在特定任务上表现良好，但缺乏适应性，遇到新问题或环境变化时就无能为力，
参数微调范式：这类智能体通过监督微调（Supervised Fine-tuning）或强化学习（Reinforcement Learning）来更新LLM自身的模型参数，从而学习新技能。这种方法虽然灵活，但计算成本极高，需要大量数据，并且可能导致“灾难性遗忘”（catastrophic forgetting）问题，即学会新知识后忘记了旧知识。

Memento：让智能体学会“回忆”

面对这种两难，研究者们提出了一个全新的范式Memento，它的解决方案深受人类记忆机制的启发。人类通过编码和回忆过去的经历（即“情景记忆”）来学习，而不是每次都重塑大脑结构，类似地，Memento让智能体通过一个外部的、不断增长的“案例库”（Case Bank）来学习。

你的设想被证实了！不微调模型也能微调Agent，Memento霸榜GAIA｜UCL最新

理论基础：记忆增强马尔可夫决策过程 (M-MDP)

研究者将智能体的决策过程在数学上形式化为记忆增强马尔可夫决策过程 (M-MDP)。与标准的MDP相比，它额外引入了一个记忆空间M，用于存储过去经验的集合。

你的设想被证实了！不微调模型也能微调Agent，Memento霸榜GAIA｜UCL最新

在每个时间步t，智能体不仅有一个当前状态s_t，还拥有一个到目前为止积累的案例库M_t。
核心决策过程：智能体的策略π被拆分成了两步：

检索 (Retrieve)：首先，根据当前状态s_t和案例库M_t，使用一个“案例检索策略”μ从记忆中选择一个最相关的过往案例c_t。
重用与调整 (Reuse & Revise)：然后，将当前状态s_t和检索到的案例c_t一同输入给一个固定的、未经微调的LLM，让LLM生成最终的行动a_t。

学习与更新：执行行动后，智能体会获得奖励r_t，并将这次新的经验(s_t, a_t, r_t)添加到案例库中，实现记忆的增长，即M_{t+1} = M_t ∪ {(s_t, a_t, r_t)}。

学习目标：优化检索策略

Memento的关键在于，它保持LLM的参数不变，学习和优化的只是那个“案例检索策略”μ。为了实现这一点，研究者采用了软Q学习 (Soft Q-Learning) 框架，目标是最大化累积奖励和策略的熵，从而鼓励智能体在检索案例时进行有效的探索。最终，最优的检索策略表现为一个基于Q值的Softmax分布，即优先选择那些能带来更高期望回报的案例。关于马尔可夫决策 (M-MDP)我之前写过不少文章，感兴趣您可以看下

你的设想被证实了！不微调模型也能微调Agent，Memento霸榜GAIA｜UCL最新

卡内基梅隆大学重磅，用这条Prompt让LLM递归内省，多轮交互中自我改进

你的设想被证实了！不微调模型也能微调Agent，Memento霸榜GAIA｜UCL最新

用这条Q-Star的prompt让LLM拥有MDP，深思熟虑规划你的复杂推理

系统设计：一个“大脑”加一双“巧手”

研究者们将上述理论实例化为一个用于“深度研究”（Deep Research）场景的智能体，其架构可以看作一个分工明确的两人小组。

你的设想被证实了！不微调模型也能微调Agent，Memento霸榜GAIA｜UCL最新

规划者 (Planner) - “大脑”：由GPT-4.1驱动，负责核心的思考工作。它接收用户查询后，会查询“案例记忆”，检索出历史上最相关的K个成功或失败的案例，然后将这些案例与当前任务一起整合到提示中，引导自己生成一个分解式的行动计划。
执行者 (Executor) - “巧手”：在GAIA任务中由o3驱动，其他任务中由o4-mini驱动。它不负责想策略，只管把“大脑”制定的每一个子任务精准地执行到位，并且它还装备了一个功能强大的工具箱。

信息获取：集成searxng等多个搜索引擎（Google, Bing）和网页抓取工具。
多模态信息处理：能够处理图像、视频、音频、PDF、PPT、Excel等多种格式的文件。
推理与分析：提供沙箱环境来执行Python代码和进行数学计算。

案例记忆的管理方式 Memento的案例记忆模块有两种实现方式，这为系统提供了灵活性。

非参数化记忆：这是一种简单直接的方法。当需要检索案例时，它通过计算当前任务与记忆库中所有案例的语义相似度（比如用余弦相似度），然后选出最相似的K个。
参数化记忆：这种方法更智能。它会训练一个Q函数（一个小型神经网络），这个函数能根据当前状态s和某个案例c，预测出借鉴这个案例可能带来的回报Q(s, c)。检索时，就挑选Q值最高的K个案例。更重要的是，这个Q函数会利用新的任务经验进行在线更新，让检索策略越来越准。

实力检验：多项基准测试的全面胜利

一个新想法好不好，最终还是要看实际效果，Memento在多个权威基准测试中的表现，确实展现了它的强大实力。

你的设想被证实了！不微调模型也能微调Agent，Memento霸榜GAIA｜UCL最新

GAIA：这是一个模拟需要多步骤、多工具协作才能完成的复杂任务的基准，非常考验智能体的综合能力。结果Memento在它的验证集上拿下了87.88%的准确率，直接登顶排行榜第一，证明了其在长链任务规划和执行上的卓越能力。
DeepResearcher：这是一个考验实时网络研究能力的基准。Memento的F1分数达到了66.6%，显著优于之前基于强化学习训练的SOTA方法。
SimpleQA：这是一个考察事实问答准确率的基准。Memento取得了惊人的95.0%的准确率，这表明它的方法能有效减少模型产生幻觉的倾向。
HLE (Humanity's Last Exam)：这是一个测试前沿科学知识和复杂推理的“地狱级”难度基准。Memento的表现同样出色，排名第二，成绩非常接近GPT-5，超过了Gemini-2.5-Pro等一众强力模型。

你的设想被证实了！不微调模型也能微调Agent，Memento霸榜GAIA｜UCL最新

深入剖析：性能提升究竟从何而来？

为了搞清楚Memento到底强在哪里，研究者还做了一系列细致的消融实验，就像把一辆高性能赛车拆开，看看每个零件的贡献一样。

你的设想被证实了！不微调模型也能微调Agent，Memento霸榜GAIA｜UCL最新

CBR的绝对价值：实验清晰地表明，案例推理（CBR）是性能提升的关键。在处理那些它没见过的新类型任务（OOD，分布外）时，启用CBR可以带来4.7%到9.6%的绝对性能提升，这个数字非常有说服力。
持续学习的能力：实验数据显示，随着与环境交互的迭代次数增加，Memento的性能呈现出一条稳步上升的学习曲线。这证明了无论是参数化还是非参数化的CBR，都能让智能体有效地“越做越聪明”。
案例数量并非越多越好：研究还发现，当检索K=4个案例时，智能体的表现最好。如果检索太多（比如16或32个），性能反而会轻微下降。这告诉我们，智能体受益于一小部分高质量、高相关的经验，而非盲目地堆砌大量可能存在噪声的示例。

写在最后

Memento的出现，与其说是一个对现有智能体框架的优化，不如说是一次对“AI如何学习”这个根本问题的重新思考。它证明了相比于依赖模型参数的“肌肉记忆”，基于过往案例的“情景记忆”在解决复杂问题时可能是一种更高效、也更具扩展性的路径。这项研究用GAIA排行榜第一的硬核实力告诉我们：一个懂得“翻阅日记”、从成功与失败中总结反思的智能体，其成长潜力是惊人的。随着代码开源的临近，AI智能体的进化故事，或许即将翻开名为“经验”的崭新一页。

文章来自于“AI修猫Prompt”，作者“AI修猫Prompt”。

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。

项目地址：https://github.com/browser-use/browser-use

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！

项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址：https://github.com/n8n-io/n8n

在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。

项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file

【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用：https://vectorvein.ai/（付费）

AI数据分析

【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。

项目地址：https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file

本地安装：https://www.deepbi.com/

【开源免费】airda(Air Data Agent)是面向数据分析的AI智能体，能够理解数据开发和数据分析需求、根据用户需要让数据可视化。

项目地址：https://github.com/hitsz-ids/airda

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。

项目地址：https://github.com/Significant-Gravitas/AutoGPT

【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

AI搜索

【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架，其性能可与 Perplexity和ChatGPT-Web相媲美。

项目地址：https://github.com/InternLM/MindSearch

在线使用：https://mindsearch.openxlab.org.cn/

【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费，搜索结果包含文本，图片，视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目，测试搜索结果最好。

项目地址：https://github.com/miurla/morphic/tree/main

在线使用：https://www.morphic.sh/

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。

项目地址：https://github.com/InternLM/xtuner

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。

项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0