一直以来,让AI智能体完成复杂的长期任务一直是个巨大挑战。当你要求AI"帮我订一张去纽约的机票"时,它需要理解目标、分解步骤、适应变化,这个过程远比看起来复杂。UC伯克利的研究者们带来了振奋人心的新发现:通过将任务规划和执行分离的PLAN-AND-ACT框架,他们成功将智能体在长期任务中的规划能力提升了54%,创造了新的技术突破。
在此之前,大多数方法都试图用单个大语言模型(LLM)直接将用户请求转化为具体行动。这就像让一个人同时担任战略家和执行者,既要考虑整体策略,又要关注每一个具体细节。这种做法导致模型经常"顾此失彼"——要么迷失在细节中忘记了最终目标,要么规划不够具体而无法执行。研究者发现,这种方式就像让一个人一心二用,最终可能两头都做不好。
研究者提出的PLAN-AND-ACT框架引入了两个专门的LLM:PLANNER(规划者)和EXECUTOR(执行者)。这就像在一个项目中分别设置项目经理和执行团队:PLANNER负责制定高层次的行动计划,而EXECUTOR则专注于将这些计划转化为具体可执行的操作。这种分工明确的架构让每个模型都能专注于自己的强项,显著提升了整体效率。
PLAN-AND-ACT系统工作流程图
以一个实际例子说明PLAN-AND-ACT是如何工作的:当用户请求"找到这个GitHub仓库的最活跃贡献者"时,系统的工作流程如下:
• 第一步:定位到贡献者部分
• 第二步:识别并关注最活跃的贡献者
这种动态规划-执行-调整的循环确保了任务能够灵活应对各种情况。
为了让PLANNER更好地学会规划,研究者开发了一个三阶段的合成数据生成流程:
1. 动作轨迹生成(Action Trajectory Generation):
• 使用Query Generator LLM生成多样化的用户查询
• Teacher LLM将查询转化为具体的动作序列
2. 基础计划生成(Grounded Plan Generation):
• 分析成功的动作轨迹
• 提取出对应的高层次计划步骤
• 利用已有计划作为种子数据
• 生成更多样化的规划示例
这种方法不需要人工标注,也不需要特殊的沙盒环境,大大降低了训练成本。
在实际测试中,研究者选择了网页导航这一具有代表性的长期规划任务进行评估。实验结果令人振奋:
实验结果数据表
关键性能提升包括:
• 基础模型:无规划器时仅达到9.85%的成功率• 合成数据增强:通过训练数据生成提升至42.42%• 动态规划:最终版本达到53.94%的成功率,创造新记录
这些数据清楚地表明,PLAN-AND-ACT框架在处理复杂网页操作任务时具有显著优势。
对于正在开发AI产品的工程师来说,PLAN-AND-ACT框架提供了几个重要的技术启示:
这项研究为构建更智能的AI助手开辟了新的方向。通过将复杂任务分解为规划和执行两个阶段,AI系统能够更好地处理长期任务,提供更可靠的服务。这种方法不仅适用于网页导航,还可以扩展到更多领域,如:
对于开发者而言,这提供了一个全新的思路:通过合理地分工与协作,让AI系统更好的服务于人类需求。
文章来自微信公众号 “ AI修猫Prompt ”
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0