用两个LLM执行PLAN-AND-ACT，让Agent在长任务中提高规划能力54%

正文

资源拓展

用两个LLM执行PLAN-AND-ACT，让Agent在长任务中提高规划能力54% | UC伯克利最新

2025-03-21 14:37

重大突破：分而治之的智能体规划新范式

一直以来，让AI智能体完成复杂的长期任务一直是个巨大挑战。当你要求AI"帮我订一张去纽约的机票"时，它需要理解目标、分解步骤、适应变化，这个过程远比看起来复杂。UC伯克利的研究者们带来了振奋人心的新发现：通过将任务规划和执行分离的PLAN-AND-ACT框架，他们成功将智能体在长期任务中的规划能力提升了54%，创造了新的技术突破。

用两个LLM执行PLAN-AND-ACT，让Agent在长任务中提高规划能力54% | UC伯克利最新

为什么单个LLM难以胜任复杂任务？

在此之前，大多数方法都试图用单个大语言模型（LLM）直接将用户请求转化为具体行动。这就像让一个人同时担任战略家和执行者，既要考虑整体策略，又要关注每一个具体细节。这种做法导致模型经常"顾此失彼"——要么迷失在细节中忘记了最终目标，要么规划不够具体而无法执行。研究者发现，这种方式就像让一个人一心二用，最终可能两头都做不好。

PLAN-AND-ACT：双智能体协作的创新方案

研究者提出的PLAN-AND-ACT框架引入了两个专门的LLM：PLANNER（规划者）和EXECUTOR（执行者）。这就像在一个项目中分别设置项目经理和执行团队：PLANNER负责制定高层次的行动计划，而EXECUTOR则专注于将这些计划转化为具体可执行的操作。这种分工明确的架构让每个模型都能专注于自己的强项，显著提升了整体效率。

系统工作流程解析

用两个LLM执行PLAN-AND-ACT，让Agent在长任务中提高规划能力54% | UC伯克利最新

PLAN-AND-ACT系统工作流程图

以一个实际例子说明PLAN-AND-ACT是如何工作的：当用户请求"找到这个GitHub仓库的最活跃贡献者"时，系统的工作流程如下：

初始规划阶段：PLANNER首先生成一个高层次计划：

• 第一步：定位到贡献者部分

• 第二步：识别并关注最活跃的贡献者

执行与反馈：EXECUTOR接收这个计划，并将其转化为具体的点击和导航操作。
动态调整：当环境发生变化（如页面更新）时，PLANNER会根据新情况动态调整后续计划。

这种动态规划-执行-调整的循环确保了任务能够灵活应对各种情况。

创新的训练数据生成方法

为了让PLANNER更好地学会规划，研究者开发了一个三阶段的合成数据生成流程：

用两个LLM执行PLAN-AND-ACT，让Agent在长任务中提高规划能力54% | UC伯克利最新

1. 动作轨迹生成（Action Trajectory Generation）：

• 使用Query Generator LLM生成多样化的用户查询

• Teacher LLM将查询转化为具体的动作序列

2. 基础计划生成（Grounded Plan Generation）：

• 分析成功的动作轨迹

• 提取出对应的高层次计划步骤

3. 合成计划扩展（Synthetic Plan Expansion）：

• 利用已有计划作为种子数据

• 生成更多样化的规划示例

这种方法不需要人工标注，也不需要特殊的沙盒环境，大大降低了训练成本。

WebArena-Lite基准测试的惊人表现

在实际测试中，研究者选择了网页导航这一具有代表性的长期规划任务进行评估。实验结果令人振奋：

用两个LLM执行PLAN-AND-ACT，让Agent在长任务中提高规划能力54% | UC伯克利最新

实验结果数据表

关键性能提升包括：

• 基础模型：无规划器时仅达到9.85%的成功率• 合成数据增强：通过训练数据生成提升至42.42%• 动态规划：最终版本达到53.94%的成功率，创造新记录

这些数据清楚地表明，PLAN-AND-ACT框架在处理复杂网页操作任务时具有显著优势。

技术启示：构建更强大的AI应用

对于正在开发AI产品的工程师来说，PLAN-AND-ACT框架提供了几个重要的技术启示：

分离关注点：将复杂任务分解为规划和执行两个独立的模块，可以显著提升系统的整体性能。
数据驱动优化：通过智能的数据生成方法，可以克服训练数据稀缺的问题。
模块化设计：清晰的职责划分不仅提高了性能，还增强了系统的可维护性和可扩展性。

更智能的AI助手

这项研究为构建更智能的AI助手开辟了新的方向。通过将复杂任务分解为规划和执行两个阶段，AI系统能够更好地处理长期任务，提供更可靠的服务。这种方法不仅适用于网页导航，还可以扩展到更多领域，如：

自动化办公
智能客服系统

对于开发者而言，这提供了一个全新的思路：通过合理地分工与协作，让AI系统更好的服务于人类需求。

文章来自微信公众号 “ AI修猫Prompt ”

用两个LLM执行PLAN-AND-ACT，让Agent在长任务中提高规划能力54% | UC伯克利最新

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。

项目地址：https://github.com/browser-use/browser-use

AI工作流

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址：https://github.com/n8n-io/n8n

在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。

项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file

【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用：https://vectorvein.ai/（付费）

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。

项目地址：https://github.com/Significant-Gravitas/AutoGPT

【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。

项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0

IOS下载

安卓下载

微信群