谷歌云刚发布了一篇《Google Cloud Startup technical guide: Al agents》(Google Cloud 创业公司技术指南:AI 代理)这是一份非常详尽和全面的手册,这篇文档要解决的问题:原型到生产之间最大鸿沟,Agent的非确定性、复杂推理轨迹如何验证、如何部署与运维等。初创公司业务负责人或开发者看完后能获得一个系统性的、从概念到实践的AI代理(Al agents)开发与运营路线图。
该指南分为三个核心部分:
让我们立刻开始!
这一部分是整个指南的基础,主要帮助初学者建立对AI Agent是什么、由什么组成以及它们如何工作的坚实知识框架。
指南首先描绘了Google Cloud提供的宏大蓝图,指出你可以通过三种主要方式来利用AI Agent,无论你的技术水平或业务需求如何。这个生态系统的设计核心是互操作性,确保无论代理来自哪里,都能协同工作。
无论Agent多么复杂,它们都由五个核心部分构成:
工作记忆 (Working memory):管理当前对话或任务所需的短期、临时信息,要求极低的延迟。Memorystore(内存缓存)是理想选择。
事务性记忆 (Transactional memory):像一个可靠的账本,记录关键操作(如支付、下单),确保数据的一致性和完整性。通常使用Cloud SQL或Cloud Spanner。
编排 (Orchestration) - 代理的执行功能 编排是指导代理完成多步骤任务的核心逻辑。最常见和有效的模式是ReAct (Reason + Action)。代理遵循一个循环:
“接地”是确保代理的回答基于可验证的事实,而不是凭空捏造(即“幻觉”)的关键过程。它是建立用户信任的基础。指南介绍了其技术演进的三个阶段:
RAG (Retrieval-Augmented Generation):这是基础。在生成答案前,代理首先从外部知识库(通常是向量数据库)中检索相关信息,并将这些信息作为上下文提供给LLM,从而确保答案有据可查。
GraphRAG:这是进阶。它不仅仅是检索文本片段,而是通过构建知识图谱,让代理能够理解概念之间的关系(例如,“症状 -> 原因 -> 治疗方法”)。
Agentic RAG:这是最前沿的方法。在这种模式下,代理不再是被动地接收检索到的信息,而是成为一个主动的推理者。它可以分析一个复杂问题,制定一个多步骤的检索计划,并依次调用多个工具来寻找最佳答案,就像一个真正的研究助理。
第一部分为您构建了一个关于现代AI代理的完整心智模型。它不仅解释了构成代理的各个部分,还阐明了它们是如何在Google Cloud的生态系统中协同工作的,为后续的构建和运营打下了坚实的理论基础。修猫在上周介绍了一篇Agent设计系统化手册,作者同样来自谷歌,是他们的前CTO办公室的资深工程负责人,这篇文章写的更详细并附带20张流程图,感兴趣您可以看下
谷歌前CTO办公室总监近500页巨著,Agent的21个设计模式,从小白走向大师
在理解了第一部分的核心概念之后,这一部分将重点从理论转向实践,提供了以谷歌自己的技术栈Agent Development Kit (ADK) 为主的构建指南。这部分的内容主要帮助开发者做出正确的架构决策,从而构建出生产就绪的代理。
Google Cloud提供了一个由四个核心组件构成的工具生态系统,用于构建复杂的AI代理:
组件描述Agent Development Kit (ADK):谷歌自己开源的、代码优先的工具包,用于构建、评估和部署AI代理。
ADK 是一个多功能框架,其核心能力包括:
构建代理的第一步是选择正确的架构。ADK提供了三大类代理,每类都适用于不同的场景
1. LLM代理 (LLM-based - LimAgent
)
2.工作流代理 (Workflow agents)
SequentialAgent
):按固定顺序执行一系列子代理,并将前一个的输出作为后一个的输入。例如,先调用“获取网页内容”工具,再调用“总结页面”工具。ParallelAgent
):同时执行多个独立的子代理任务,以优化性能。例如,从多个数据源并行检索信息。LoopAgent
):重复执行一个或多个子代理,直到满足某个退出条件或达到最大迭代次数。例如,不断生成图像,直到图像中的香蕉数量为五个为止。3.自定义代理 (Custom logic)
BaseAgent
类并编写自定义的Python代码来精确控制代理的行为。LimAgent
类原生实现了ReAct(Reason + Action) 这个强大的编排模式。它自动处理“思考”(调用LLM形成下一步计划)、“行动”(调用工具或委托给其他代理)和“观察”(接收工具返回的结果并更新上下文)之间的循环,让开发者可以专注于业务逻辑而非底层实现。status
键(如success
或error
),以便代理能判断操作是否成功。最后,指南手把手教你如何定义一个Agent :
name
(名称)、description
(描述)和model
(使用的模型)。instruction
参数中,用自然语言详细描述代理的角色、任务、约束以及如何使用它的工具。get_user_details()
或create_jira_ticket()
。第二部分是一份非常扎实的实践指南。它不仅介绍了ADK这个强大的工具,还阐明了其背后的设计哲学和架构模式,并提供了从定义、开发到部署的完整路径,为开发者构建功能强大且可扩展的AI代理奠定了坚实的基础。
最后我们来深入探讨这份指南的第三部分:“确保AI代理的可靠与负责任” (Ensuring Al agents are reliable and responsible)。这一部分是整个指南的点睛之笔,它解决了将AI代理从“能用”推向“在生产环境中值得信赖”的关键挑战。鉴于大型语言模型(LLM)系统固有的非确定性,传统的软件测试方法已不再足够。本章引入了一套名为AgentOps 的严谨工程方法论,旨在系统化地确保代理的安全性、一致性和价值。
Agent Operations (AgentOps) 是一个专为AI代理设计的运营方法论,它将DevOps、MLOps和DataOps的原则应用于构建、部署和管理AI代理的全生命周期。它的核心目标是提供一个系统化、自动化、可复现的框架,以应对非确定性系统在生产环境中的复杂性。它通过建立持续的反馈循环,不断改进代理的可靠性、安全性和性能。
评估是AgentOps的基石, 指南摒弃了表面的“感觉测试”(vibe-testing),提出了一套严谨、多层次的评估框架,以确保代理的正确性。
第一层:组件级评估 (Component-level evaluation)
第二层:轨迹评估 (Trajectory evaluation)
第三层:结果评估 (Outcome evaluation)
第四层:系统级监控 (System-level monitoring)
这两个工具被设计为协同工作,清晰地分离了应用逻辑和运营生命周期。
这个协同工作流通常分为五步:
最后,指南强调了构建Agent时不可推卸的责任:确保它们是安全、可靠且对齐人类价值观的。文档作者推荐遵循Google的安全AI框架(SAIF),并利用ADK和Agent Starter Pack实施“纵深防御”策略 :
关于Agent运维方面的内容,中科院有一篇比此文档更详细和系统的论文,从头到尾论述了Agentops,感兴趣您可以看下
Agent怎么运维?中科院清华重磅发布:AgentOps来了!
在详细阅读了这份指南后,咱们可以提炼出几个核心要点,并从中发现一些极具启发性、引人深思的观点。
过去一年,很多人认为用好AI就是写好提示词 (Prompt)。但这份指南明确指出,在生产环境这远远不够。真正的价值在于设计一个稳健的、可扩展的系统架构。如何为代理设计分层的记忆系统?如何选择合适的编排模式(ReAct)?如何设计原子化、职责单一的工具?这些问题表明,AI应用的开发正在迅速从“文科生”的提示词艺术,回归到“理科生”的软件工程和系统设计。
文章来自于微信公众号 “AI修猫Prompt”,作者 “AI修猫Prompt”
【开源免费】OWL是一个完全开源免费的通用智能体项目。它可以远程开Ubuntu容器、自动挂载数据、做规划、执行任务,堪称「云端超级打工人」而且做到了开源界GAIA性能天花板,达到了57.7%,超越Huggingface 提出的Open Deep Research 55.15%的表现。
项目地址:GitHub:https://github.com/camel-ai/owl
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!
项目地址:https://github.com/coze-dev/coze-studio
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。
项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file
本地安装:https://www.deepbi.com/
【开源免费】airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。
项目地址:https://github.com/hitsz-ids/airda
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。
项目地址:https://github.com/labring/FastGPT
【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址:https://github.com/microsoft/graphrag
【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。
项目地址:https://github.com/langgenius/dify
【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。
项目地址:https://github.com/infiniflow/ragflow/tree/main
【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目
项目地址:https://github.com/phidatahq/phidata
【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。
项目地址:https://github.com/TaskingAI/TaskingAI
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0