你或许也有过这样的猜想,如何让AI智能体(Agent)变得更聪明、更能干,同时又不用烧掉堆积如山的算力去反复微调模型?前天一个来自UCL《Memento》的框架给出了一个非常有意思的答案,它就像是在说,与其让AI去“死记硬背”新知识(微调),不如教它学会“翻阅过去的日记本”(学习经验),在被誉为智能体“高考”的GAIA基准上击败众多对手强势登顶,关键的消融实验和泛化测试也证明,其核心的“经验记忆”机制正是性能飞跃的关键,能带来高达9.6%的绝对性能提升,并展现出持续学习、越用越强的潜力。凭借这样扎实的成果,该项目仅发布三天GitHub就收获了600star,并且作者在几小时前刚开源了Memento的核心代码,https://github.com/Agent-on-the-Fly/Memento,这个思路真的值得我们深入探讨一下。
您在开发中肯定也感觉到了,我们现在打造LLM智能体,基本上就两条路线,但研究者指出它们都存在明显的局限性
面对这种两难,研究者们提出了一个全新的范式Memento,它的解决方案深受人类记忆机制的启发。人类通过编码和回忆过去的经历(即“情景记忆”)来学习,而不是每次都重塑大脑结构,类似地,Memento让智能体通过一个外部的、不断增长的“案例库”(Case Bank)来学习。
研究者将智能体的决策过程在数学上形式化为记忆增强马尔可夫决策过程 (M-MDP)。与标准的MDP相比,它额外引入了一个记忆空间M,用于存储过去经验的集合。
Memento的关键在于,它保持LLM的参数不变,学习和优化的只是那个“案例检索策略”μ。为了实现这一点,研究者采用了软Q学习 (Soft Q-Learning) 框架,目标是最大化累积奖励和策略的熵,从而鼓励智能体在检索案例时进行有效的探索。最终,最优的检索策略表现为一个基于Q值的Softmax分布,即优先选择那些能带来更高期望回报的案例。关于马尔可夫决策 (M-MDP)我之前写过不少文章,感兴趣您可以看下
卡内基梅隆大学重磅,用这条Prompt让LLM递归内省,多轮交互中自我改进
用这条Q-Star的prompt让LLM拥有MDP,深思熟虑规划你的复杂推理
研究者们将上述理论实例化为一个用于“深度研究”(Deep Research)场景的智能体,其架构可以看作一个分工明确的两人小组。
案例记忆的管理方式 Memento的案例记忆模块有两种实现方式,这为系统提供了灵活性。
一个新想法好不好,最终还是要看实际效果,Memento在多个权威基准测试中的表现,确实展现了它的强大实力。
为了搞清楚Memento到底强在哪里,研究者还做了一系列细致的消融实验,就像把一辆高性能赛车拆开,看看每个零件的贡献一样。
Memento的出现,与其说是一个对现有智能体框架的优化,不如说是一次对“AI如何学习”这个根本问题的重新思考。它证明了相比于依赖模型参数的“肌肉记忆”,基于过往案例的“情景记忆”在解决复杂问题时可能是一种更高效、也更具扩展性的路径。这项研究用GAIA排行榜第一的硬核实力告诉我们:一个懂得“翻阅日记”、从成功与失败中总结反思的智能体,其成长潜力是惊人的。随着代码开源的临近,AI智能体的进化故事,或许即将翻开名为“经验”的崭新一页。
文章来自于“AI修猫Prompt”,作者“AI修猫Prompt”。
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!
项目地址:https://github.com/coze-dev/coze-studio
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。
项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file
本地安装:https://www.deepbi.com/
【开源免费】airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。
项目地址:https://github.com/hitsz-ids/airda
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架,其性能可与 Perplexity和ChatGPT-Web相媲美。
项目地址:https://github.com/InternLM/MindSearch
在线使用:https://mindsearch.openxlab.org.cn/
【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费,搜索结果包含文本,图片,视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目,测试搜索结果最好。
项目地址:https://github.com/miurla/morphic/tree/main
在线使用:https://www.morphic.sh/
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0