AutoGLM 2.0 深度解析：云端智能体的技术跃进与现实挑战

正文

资源拓展

2025-08-21 14:29

AutoGLM 2.0 深度解析：云端智能体的技术跃进与现实挑战

进入 2025 年，GUI Agent 赛道热度逐渐抬升 —— OpenAI 推出 Operator 并发布了 ChatGPT Agent，字节则发布了 UI-TARS-1.5 定位 GUI 开源方案。但大多数产品依然依赖本地执行，难以 24h 稳定运行。

8 月，北京的 AutoGLM 2.0 闭门交流会上，智谱 AI 展示了一条不同的路径：为每个用户配备一台云端的智能手机和电脑。

其实早在 2023 年底，智谱团队就已经受到 GPT-4 调用 API 和使用浏览器的能力启发，开始探索让 AI 像人一样操作设备的可能性。这一技术方向源自一个关键洞察：第三产业 50% 以上的价值创造依赖电脑、手机和大脑。如果 AI 能熟练操作这些设备，就具备了参与经济活动的基本能力。

2024 年 10 月，第一版 AutoGLM 发布，虽能操作手机，但很快暴露出本地系统的限制，最大的痛点是锁屏即停。随后推出的沉思版则进一步融合了 DeepResearch 能力。

经历了近两年的探索，团队最终推出了 AutoGLM 2.0 —— 一款由纯国产模型 GLM-4.5 与 GLM-4.5V 驱动的 GUI Agent，具备推理、代码和多模态的全能能力。

AutoGLM 2.0 深度解析：云端智能体的技术跃进与现实挑战

01 Agent 云端执行架构的全新定义

不只是 Browser Use 的真正云电脑

AutoGLM 与市面其他 Agent 产品的根本区别在于它操作的是一台真正完整的电脑。当其他产品还局限于 Browser 和 VS Code 时，AutoGLM 已能运行 Office、Photoshop 等桌面应用。

选择这样的产品形态，源于智谱团队对 AGI 早期形态的深刻理解。他们认为真正的智能体需要满足「3A 原则」。

Around-the-clock（全时运行）：即使用户离线或睡眠，Agent 仍能 24 小时不间断执行任务

Autonomy without interference（自主零干扰）：独立运行在云端，不占用用户本地屏幕与算力，如同平行世界的数字分身

Affinity（全域连接）：突破浏览器对话框的限制，未来将跨越手机、电脑、智能穿戴等多种设备，真正融入物理世界

技术实现层面，智谱团队透露，云虚拟机的基础设施并非完全自主开发。虚拟机镜像本身的数据安全和隐私保护策略，是与阿里云等合作伙伴共同构建的。手机端同样采用与厂商合作的模式，确保了系统的稳定性和安全性。

AutoGLM 2.0 深度解析：云端智能体的技术跃进与现实挑战

用户数据安全始终是云端执行最敏感的话题

智谱表示：“我们不知道用户的账号密码。Agent 也不会在没有主动确认的情况下直接执行敏感操作。”

虚拟机镜像的数据安全和隐私保护由专业云服务商负责，团队坦言他们不能直接访问用户数据。系统只保留网站给的 token ，这个 token 有失效期，与用户在使用自己浏览器的机制完全相同。

对于当前存在潜在责任风险的操作，团队在重点环节设置了安全围栏。例如，支付环节需要用户最终确认，发布内容需要二次验证。

Prompt：在美团上帮我查找库迪咖啡的经典拿铁并下单。

AutoGLM 2.0 深度解析：云端智能体的技术跃进与现实挑战

02 End - to - End Online RL：端到端在线强化学习

在线下交流中，团队展示了 AutoGLM 技术发展的三个关键阶段，每个阶段都代表着对 Agent 训练理念的重新思考：

第一阶段（2023 年 8 月）：Agent Bench 发布，团队首先解决了如何系统评估 Agent 模型能力的基础问题。这为后续的技术迭代奠定了重要的评价体系基础。

第二阶段（2024 年上半年）：采用SFT（监督微调）方案，通过模仿人类轨迹学习。但团队很快发现了这种方法的致命缺陷 —— 模型会把人类操作中的对错都学进去，无法区分优劣路径。

第三阶段（2024 年下半年至今）：全面转向 Online RL ，实现了 165% 的成功率提升。这种转变的核心在于，放弃让模型简单模仿人类操作路径，而是让它通过结果奖励探索可能更优的解决方案。

这种训练方式的效果在国际基准测试中得到验证：OSWorld (48.1)、WebVoyager (87.7)、AndroidLab (46.8) 、AndroidWorld (75.8) 等多项测试中，AutoGLM 均取得领先。

AutoGLM 2.0 深度解析：云端智能体的技术跃进与现实挑战

现在的系统能同时运行上千个环境进行训练，快速 Setup、初始化、运行、结束，形成非常快速的迭代过程。

这种高强度更新迭代，被团队形象地比喻为让 AI 从“一学期一次期末考试”变成“每学完一个章节就考试”。

AutoGLM 2.0 深度解析：云端智能体的技术跃进与现实挑战

“环境构建是比 Reward 更困难的挑战。”

封闭域任务如数学、代码只需要规则和编译器就能搞定。但现实任务需要电脑、手机、连接互联网、给账号才能完成。

以营销任务为例，总得有客户让 Agent 去营销才能学习，是拿真实用户做实验还是模拟环境？环境怎么搭建？对真实任务来说，Environment 可能比 Reward 更重要。这种挑战直接决定了 Agent 能否从实验室走向真实世界。

智谱团队也在探索更 Scalable 的方式来获取任务反馈，包括 OpenAI 在内的研究团队都在探索更加 Scalable Verification 的方法，希望能以比较廉价和高效的方式得到大量真实高难度任务的反馈。

“这种信号数据是存在的，但如何更好地挖掘获取，仍需要持续探索。”

AutoGLM 2.0 深度解析：云端智能体的技术跃进与现实挑战

03 GUI Agent 产品的现在进行时

在交流会开场演示中，团队让 AutoGLM 完成自动在小红书创作并发布介绍自己的视频内容。

演示的技术亮点在于：它采用高并发搜索方式，同时搜索多个关键词，找到官网进行深度浏览。整个过程完全异步执行，用户可以随意切换应用而不影响任务进行。

正如团队所说：“今天我们给每个人送了一台智能云手机，这台手机不会和你的屏幕使用产生任何冲突，你甚至在睡觉的时候，它可以都在那不停地运行。”

且据介绍，AutoGLM 2.0 已覆盖 40+ 高频应用，以下是实际运行的典型案例：

Prompt：点赞、投币、收藏 B 站上智谱清言 AutoGLM 沉思播放量最高的视频，最后发送弹幕“我为沉思打 call～”

AutoGLM 2.0 深度解析：云端智能体的技术跃进与现实挑战

Prompt：生成三张美食图片，发一个微头条。

AutoGLM 2.0 深度解析：云端智能体的技术跃进与现实挑战

而在测评中我发现，AutoGLM 在做调研任务时呈现出明显的平台偏好——“知乎 - 小红书 - B 站”成为常常浏览的搜索路径。

关于浏览器场景的训练泛化问题，团队解释说主要取决于现阶段训练数据的 distribution。比如实时信息类或旅游攻略类场景比较多，所以模型会自然选择知乎、小红书这些网站。随着财经类等其他场景比例提高，会自然去选择相应网站。

OS 层面的操作也已在产品上线规划中，团队承诺将以一到两周的频率快速迭代。

04 特工之思：关于 Agent 未来的三个关键议题

Q1：GUI 操作是必需品还是过渡方案？

测评中发现，一些 GUI 操作任务的链路依然依赖较多的 API 调用完成。而跳出简单的 Web 端 Research 任务， GUI 操作仍有其必需的价值。大量企业内部系统和小众应用只提供图形界面，操作过程的可见性能够增强用户信任。

端侧 AI 芯片的进步也正在改变成本结构，本地运行视觉模型变得越来越实用。但如何在 GUI 的通用性与 API 的高效性之间找到平衡？当 MCP 等标准协议成熟后，这种平衡会如何变化？

Q2：云端执行会成为 AI Agent 的主流范式吗？

当苹果将 AI 计算放在设备端、Google 推出 Gemini Nano 、高通发布专用 AI 芯片时，AutoGLM 选择了在全云端架构构建智能体手机和电脑。

云端架构确实解决了痛点：用户设备零负担、真正的多任务并行、统一的安全管控。但代价也同样明显 —— 用户数据完全托管给平台，第三方平台的误判风险。当与其他硬件设备融合更多的时候，混合架构是否会是未来更主流的选择？

Q3：Agent 经济将如何重塑互联网？

团队表示，AutoGLM 2.0 平均任务消耗 256K tokens，是传统 Chatbot 的 32 倍。且 Agent 流量有三个特点：任务明确、转化率高、可持续运行。

这种 Agent 作为互联网主体的新型流量该如何定价？当 Agent 成为服务的主要使用者，平台的产品设计需要重新考虑吗？

写在最后，AutoGLM 2.0 展现了云端执行架构的独特优势、端到端强化学习的技术突破、以及远低于竞品的运营成本，但仍存在平台兼容性、任务执行稳定性、场景泛化能力等不完美之处。这些问题可能恰恰证明这是一个真实的、正在快速迭代的产品。

团队选择全面开放而非邀请码机制，正是希望通过大规模用户使用加速产品完善和技术迭代。

智谱团队放手让 AutoGLM 2.0 进行市场检验，并期待其云端执行能力为 AI 融入物理世界带来无限可能。

更多技术细节，参阅智谱已发布的技术论文：

ComputerRL: Scaling End-to-End Online Reinforcement Learning for Computer Use Agents

https://arxiv.org/abs/2508.14040

MobileRL: Advancing Mobile Use Agents With Adaptive Online Reinforcement Learning

https://github.com/Xiao9905/AutoGLM/blob/main/static/papers/mobilerl_0820.pdf

文章来自于微信公众号“特工宇宙”，作者是“特工彩虹糖”。

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。

项目地址：https://github.com/browser-use/browser-use

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。

项目地址：https://github.com/Significant-Gravitas/AutoGPT

【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。

项目地址：https://github.com/InternLM/xtuner

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。

项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0

IOS下载

安卓下载

微信群

AutoGLM 2.0 深度解析：云端智能体的技术跃进与现实挑战

站点导航

APP 下载

01

Agent 云端执行架构的全新定义

02

End - to - End Online RL：端到端在线强化学习

03

GUI Agent 产品的现在进行时

04

特工之思：关于 Agent 未来的三个关键议题