用两个LLM执行PLAN-AND-ACT,让Agent在长任务中提高规划能力54% | UC伯克利最新

搜索
AI-TNT
正文
资源拓展
用两个LLM执行PLAN-AND-ACT,让Agent在长任务中提高规划能力54% | UC伯克利最新
2025-03-21 14:37

重大突破:分而治之的智能体规划新范式


一直以来,让AI智能体完成复杂的长期任务一直是个巨大挑战。当你要求AI"帮我订一张去纽约的机票"时,它需要理解目标、分解步骤、适应变化,这个过程远比看起来复杂。UC伯克利的研究者们带来了振奋人心的新发现:通过将任务规划和执行分离的PLAN-AND-ACT框架,他们成功将智能体在长期任务中的规划能力提升了54%,创造了新的技术突破。

用两个LLM执行PLAN-AND-ACT,让Agent在长任务中提高规划能力54% | UC伯克利最新


为什么单个LLM难以胜任复杂任务?


在此之前,大多数方法都试图用单个大语言模型(LLM)直接将用户请求转化为具体行动。这就像让一个人同时担任战略家和执行者,既要考虑整体策略,又要关注每一个具体细节。这种做法导致模型经常"顾此失彼"——要么迷失在细节中忘记了最终目标,要么规划不够具体而无法执行。研究者发现,这种方式就像让一个人一心二用,最终可能两头都做不好。


PLAN-AND-ACT:双智能体协作的创新方案


研究者提出的PLAN-AND-ACT框架引入了两个专门的LLM:PLANNER(规划者)和EXECUTOR(执行者)。这就像在一个项目中分别设置项目经理和执行团队:PLANNER负责制定高层次的行动计划,而EXECUTOR则专注于将这些计划转化为具体可执行的操作。这种分工明确的架构让每个模型都能专注于自己的强项,显著提升了整体效率。


系统工作流程解析



用两个LLM执行PLAN-AND-ACT,让Agent在长任务中提高规划能力54% | UC伯克利最新


PLAN-AND-ACT系统工作流程图


以一个实际例子说明PLAN-AND-ACT是如何工作的:当用户请求"找到这个GitHub仓库的最活跃贡献者"时,系统的工作流程如下:


  1. 初始规划阶段:PLANNER首先生成一个高层次计划:

• 第一步:定位到贡献者部分

• 第二步:识别并关注最活跃的贡献者

  1. 执行与反馈:EXECUTOR接收这个计划,并将其转化为具体的点击和导航操作。
  2. 动态调整:当环境发生变化(如页面更新)时,PLANNER会根据新情况动态调整后续计划。


这种动态规划-执行-调整的循环确保了任务能够灵活应对各种情况。


创新的训练数据生成方法


为了让PLANNER更好地学会规划,研究者开发了一个三阶段的合成数据生成流程:


用两个LLM执行PLAN-AND-ACT,让Agent在长任务中提高规划能力54% | UC伯克利最新

1. 动作轨迹生成(Action Trajectory Generation):

• 使用Query Generator LLM生成多样化的用户查询

• Teacher LLM将查询转化为具体的动作序列

2. 基础计划生成(Grounded Plan Generation):

• 分析成功的动作轨迹

• 提取出对应的高层次计划步骤

  1. 3. 合成计划扩展(Synthetic Plan Expansion):

• 利用已有计划作为种子数据

• 生成更多样化的规划示例


这种方法不需要人工标注,也不需要特殊的沙盒环境,大大降低了训练成本。


WebArena-Lite基准测试的惊人表现


在实际测试中,研究者选择了网页导航这一具有代表性的长期规划任务进行评估。实验结果令人振奋:


用两个LLM执行PLAN-AND-ACT,让Agent在长任务中提高规划能力54% | UC伯克利最新


实验结果数据表


关键性能提升包括:


基础模型:无规划器时仅达到9.85%的成功率• 合成数据增强:通过训练数据生成提升至42.42%• 动态规划:最终版本达到53.94%的成功率,创造新记录


这些数据清楚地表明,PLAN-AND-ACT框架在处理复杂网页操作任务时具有显著优势。


技术启示:构建更强大的AI应用


对于正在开发AI产品的工程师来说,PLAN-AND-ACT框架提供了几个重要的技术启示:


  1.  分离关注点:将复杂任务分解为规划和执行两个独立的模块,可以显著提升系统的整体性能。
  2.  数据驱动优化:通过智能的数据生成方法,可以克服训练数据稀缺的问题。
  3. 模块化设计:清晰的职责划分不仅提高了性能,还增强了系统的可维护性和可扩展性。


更智能的AI助手


这项研究为构建更智能的AI助手开辟了新的方向。通过将复杂任务分解为规划和执行两个阶段,AI系统能够更好地处理长期任务,提供更可靠的服务。这种方法不仅适用于网页导航,还可以扩展到更多领域,如:


  • 自动化办公
  • 智能客服系统


对于开发者而言,这提供了一个全新的思路:通过合理地分工与协作,让AI系统更好的服务于人类需求。



文章来自微信公众号 “ AI修猫Prompt ”


用两个LLM执行PLAN-AND-ACT,让Agent在长任务中提高规划能力54% | UC伯克利最新


1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
AI工作流

【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费)


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/(付费)

3
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

4
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0

IOS下载
安卓下载
微信群
沪ICP备2023015588号