在几天前的开发者大会上,OpenAI 发布了一套面向开发者和企业的完整工具集 AgentKit。其中,可视化画布 Agent Builder 用于创建、管理和版本化多智能体工作流,通过拖拽节点的方式即可编辑工作流。
LangChain 的创始人 Harrison Chase 最近又写了一篇博客文章,聊了聊他对于 AgentKit 的看法。Harrison 锐评,市场上不需要 AgentKit 这种「可视化工作流构建器」。
Workflow 和 Agent 的本质区别在于可预测性和自主性。Workflow 流程是固定的,有很多分支、并行的复杂逻辑,在可视化界面上就是各种节点和连接线;Agent 的逻辑被简化并抽象成自然语言,然后由 LLM 自己决定循环调用哪些工具来完成目标。
AgentKit 和市面上大多数类似工具,本质上都是在构建 Workflow,但不是真正的 Agent。
Harrison 认为,「可视化工作流构建器」正处在一个尴尬的位置,受到来自高、低两个方向的挤压:简单的任务用无代码 Agent 更方便,复杂的任务则必须用代码才能实现稳定可靠。
以下为文章原文内容,Founder Park 进行了编译微调。
原文链接:https://blog.langchain.com/not-another-workflow-builder/
从 LangChain 项目启动第一天起,「可视化工作流构建器」就是最常收到的需求之一。但我们始终没有推进这项开发,而是选择让其他团队(如 LangFlow、Flowise、n8n)在我们的技术上进行构建。
昨天 OpenAI 在开发者大会(Dev Day)上推出了一款工作流构建器。借这个机会,我想聊聊我们为什么至今没有构建一个这样的工具,以及我们更关注、但不同的发展方向。
首先,有必要明确这类无代码工作流构建器要解决的核心问题。它们的主要目标是让非技术用户也能搭建 Agent,背后有两大核心原因:
我们偶尔也会看到其他需求场景,比如技术用户用它快速搭建 Agent 原型,之后再把它转化为代码。但在本文中,我们假设核心需求是:让组织内的所有人都能独立搭建应用和组件,不需要依赖工程团队支持。
我在前面特意使用了「工作流」和「 Agent 」两个术语。我们之前曾在一篇博文中讨论过二者的关系(有趣的是,那篇文章是为支持「工作流」而写,回应的正是 OpenAI 一篇反对「工作流」的文章。)
Founder Park 此前文章:
《Agents 和 Workflows 孰好孰坏,LangChain 创始人和 OpenAI 杠上了》
对「 Agent 」的定义,目前开发者社区已基本达成共识:
LLM Agent 通过循环调用工具来实现目标。
工作流以牺牲「自主性」为代价,换取更高的「可预测性」;而 Agent 则以牺牲「可预测性」为代价,换取更高的「自主性」。值得注意的是,搭建 Agent 系统的核心目标是实现「稳定可靠的良好结果」,但只靠「可预测性」或「自主性」都无法保证这一点。
工作流程通常很复杂,包含分支逻辑、并行节点和多条不同路径。这种复杂性会体现在工作流的「图谱」中,并通过某种领域特定语言(DSL)来呈现。
Agent 也可能包含复杂逻辑,但不同的是,这些逻辑都被抽象成自然语言,嵌入到 Prompt 中。因此, Agent 的整体结构很简单(只用「Prompt+工具」构成),尽管其中的「 Prompt 」本身有时也会相当复杂。
OpenAI 的 AgentKit,以及 n8n、Flowise、LangFlow 等工具,本质上都是「可视化工作流构建器」,而不是「 Agent 构建器」。
结合以上背景,可视化工作流构建器存在以下核心问题:
我们的核心目标是搭建「稳定可靠的 LLM 驱动系统」(无论是工作流还是 Agent )。人们用这类系统解决的问题复杂度各异,从低到高不等,因此最佳解决方案也需要根据复杂度的不同来区分。
对于高复杂度问题,我们发现要实现足够高的可靠性,系统不能是纯粹的 Agent ,而是需要融合工作流的部分特性。这类问题往往需要复杂的工作流支持,这个时候如果需要大量分支、并行处理和模块化设计,「代码」就是最佳选择(我们的 LangGraph 就是为了这个设计的)。
传统上,这类问题非技术人员无法解决。但随着代码生成成本逐渐降低,我们预计更多的构建者将发现自己能够构建这些解决方案。
对于低复杂度场景,我认为「简单 Agent 」( Prompt +工具)的可靠性已足够解决问题。而且,用无代码方式搭建这类 Agent ,会比用无代码方式搭建工作流更简单。
随着 LLM 不断迭代,这类 Agent 能够解决的问题复杂度上限,也会持续提升。
无代码工作流构建器面临的核心问题是:受到来自「低复杂度」和「高复杂度」两个方向的挤压。
用无代码方式搭建 Agent( Prompt +工具),必然比搭建工作流更简单。而且随着模型、Agent 框架,以及「 Agent 创建、修改、训练界面」的持续优化,这些 Agent 能够稳定解决的任务会越来越多。
另一方面,当复杂度达到一定程度,可视化工作流构建器就会失控,这时候唯一的替代方案就是「代码」。编写代码在历史上一直局限于少数人,入门门槛相当高;但随着代码生成模型的优化和成本降低,选择用代码解决问题的门槛会越来越低。
需要明确的是:已经有不少公司在「 LLM 驱动工作流构建器」方面做得非常出色,比如 n8n、Flowise、LangFlow、Gumloop 等等。其中很多团队已找到 PMF,它们解决了当下的实际问题,也能让非技术用户创造出优秀的成果。
但我认为,世界上不需要再多一个「工作流构建器」了。相反,接下来更值得解决的核心问题是:
文章来自于微信公众号“Founder Park”。
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!
项目地址:https://github.com/coze-dev/coze-studio
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0