进入 2025 年,GUI Agent 赛道热度逐渐抬升 —— OpenAI 推出 Operator 并发布了 ChatGPT Agent,字节则发布了 UI-TARS-1.5 定位 GUI 开源方案。但大多数产品依然依赖本地执行,难以 24h 稳定运行。
8 月,北京的 AutoGLM 2.0 闭门交流会上,智谱 AI 展示了一条不同的路径:为每个用户配备一台云端的智能手机和电脑。
其实早在 2023 年底,智谱团队就已经受到 GPT-4 调用 API 和使用浏览器的能力启发,开始探索让 AI 像人一样操作设备的可能性。这一技术方向源自一个关键洞察:第三产业 50% 以上的价值创造依赖电脑、手机和大脑。如果 AI 能熟练操作这些设备,就具备了参与经济活动的基本能力。
2024 年 10 月,第一版 AutoGLM 发布,虽能操作手机,但很快暴露出本地系统的限制,最大的痛点是锁屏即停。随后推出的沉思版则进一步融合了 DeepResearch 能力。
经历了近两年的探索,团队最终推出了 AutoGLM 2.0 —— 一款由纯国产模型 GLM-4.5 与 GLM-4.5V 驱动的 GUI Agent,具备推理、代码和多模态的全能能力。
不只是 Browser Use 的真正云电脑
AutoGLM 与市面其他 Agent 产品的根本区别在于它操作的是一台真正完整的电脑。当其他产品还局限于 Browser 和 VS Code 时,AutoGLM 已能运行 Office、Photoshop 等桌面应用。
选择这样的产品形态,源于智谱团队对 AGI 早期形态的深刻理解。他们认为真正的智能体需要满足「3A 原则」。
Around-the-clock(全时运行):即使用户离线或睡眠,Agent 仍能 24 小时不间断执行任务
Autonomy without interference(自主零干扰):独立运行在云端,不占用用户本地屏幕与算力,如同平行世界的数字分身
Affinity(全域连接):突破浏览器对话框的限制,未来将跨越手机、电脑、智能穿戴等多种设备,真正融入物理世界
技术实现层面,智谱团队透露,云虚拟机的基础设施并非完全自主开发。虚拟机镜像本身的数据安全和隐私保护策略,是与阿里云等合作伙伴共同构建的。手机端同样采用与厂商合作的模式,确保了系统的稳定性和安全性。
用户数据安全始终是云端执行最敏感的话题
智谱表示:“我们不知道用户的账号密码。Agent 也不会在没有主动确认的情况下直接执行敏感操作。”
虚拟机镜像的数据安全和隐私保护由专业云服务商负责,团队坦言他们不能直接访问用户数据。系统只保留网站给的 token ,这个 token 有失效期,与用户在使用自己浏览器的机制完全相同。
对于当前存在潜在责任风险的操作,团队在重点环节设置了安全围栏。例如,支付环节需要用户最终确认,发布内容需要二次验证。
Prompt:在美团上帮我查找库迪咖啡的经典拿铁并下单。
在线下交流中,团队展示了 AutoGLM 技术发展的三个关键阶段,每个阶段都代表着对 Agent 训练理念的重新思考:
第一阶段(2023 年 8 月):Agent Bench 发布,团队首先解决了如何系统评估 Agent 模型能力的基础问题。这为后续的技术迭代奠定了重要的评价体系基础。
第二阶段(2024 年上半年):采用SFT(监督微调)方案,通过模仿人类轨迹学习。但团队很快发现了这种方法的致命缺陷 —— 模型会把人类操作中的对错都学进去,无法区分优劣路径。
第三阶段(2024 年下半年至今):全面转向 Online RL ,实现了 165% 的成功率提升。这种转变的核心在于,放弃让模型简单模仿人类操作路径,而是让它通过结果奖励探索可能更优的解决方案。
这种训练方式的效果在国际基准测试中得到验证:OSWorld (48.1)、WebVoyager (87.7)、AndroidLab (46.8) 、AndroidWorld (75.8) 等多项测试中,AutoGLM 均取得领先。
现在的系统能同时运行上千个环境进行训练,快速 Setup、初始化、运行、结束,形成非常快速的迭代过程。
这种高强度更新迭代,被团队形象地比喻为让 AI 从“一学期一次期末考试”变成“每学完一个章节就考试”。
“环境构建是比 Reward 更困难的挑战。”
封闭域任务如数学、代码只需要规则和编译器就能搞定。但现实任务需要电脑、手机、连接互联网、给账号才能完成。
以营销任务为例,总得有客户让 Agent 去营销才能学习,是拿真实用户做实验还是模拟环境?环境怎么搭建?对真实任务来说,Environment 可能比 Reward 更重要。这种挑战直接决定了 Agent 能否从实验室走向真实世界。
智谱团队也在探索更 Scalable 的方式来获取任务反馈,包括 OpenAI 在内的研究团队都在探索更加 Scalable Verification 的方法,希望能以比较廉价和高效的方式得到大量真实高难度任务的反馈。
“这种信号数据是存在的,但如何更好地挖掘获取,仍需要持续探索。”
在交流会开场演示中,团队让 AutoGLM 完成自动在小红书创作并发布介绍自己的视频内容。
演示的技术亮点在于:它采用高并发搜索方式,同时搜索多个关键词,找到官网进行深度浏览。整个过程完全异步执行,用户可以随意切换应用而不影响任务进行。
正如团队所说:“今天我们给每个人送了一台智能云手机,这台手机不会和你的屏幕使用产生任何冲突,你甚至在睡觉的时候,它可以都在那不停地运行。”
且据介绍,AutoGLM 2.0 已覆盖 40+ 高频应用,以下是实际运行的典型案例:
Prompt:点赞、投币、收藏 B 站上智谱清言 AutoGLM 沉思播放量最高的视频,最后发送弹幕“我为沉思打 call~”
Prompt:生成三张美食图片,发一个微头条。
而在测评中我发现,AutoGLM 在做调研任务时呈现出明显的平台偏好——“知乎 - 小红书 - B 站”成为常常浏览的搜索路径。
关于浏览器场景的训练泛化问题,团队解释说主要取决于现阶段训练数据的 distribution。比如实时信息类或旅游攻略类场景比较多,所以模型会自然选择知乎、小红书这些网站。随着财经类等其他场景比例提高,会自然去选择相应网站。
OS 层面的操作也已在产品上线规划中,团队承诺将以一到两周的频率快速迭代。
Q1:GUI 操作是必需品还是过渡方案?
测评中发现,一些 GUI 操作任务的链路依然依赖较多的 API 调用完成。而跳出简单的 Web 端 Research 任务, GUI 操作仍有其必需的价值。大量企业内部系统和小众应用只提供图形界面,操作过程的可见性能够增强用户信任。
端侧 AI 芯片的进步也正在改变成本结构,本地运行视觉模型变得越来越实用。但如何在 GUI 的通用性与 API 的高效性之间找到平衡?当 MCP 等标准协议成熟后,这种平衡会如何变化?
Q2:云端执行会成为 AI Agent 的主流范式吗?
当苹果将 AI 计算放在设备端、Google 推出 Gemini Nano 、高通发布专用 AI 芯片时,AutoGLM 选择了在全云端架构构建智能体手机和电脑。
云端架构确实解决了痛点:用户设备零负担、真正的多任务并行、统一的安全管控。但代价也同样明显 —— 用户数据完全托管给平台,第三方平台的误判风险。当与其他硬件设备融合更多的时候,混合架构是否会是未来更主流的选择?
Q3:Agent 经济将如何重塑互联网?
团队表示,AutoGLM 2.0 平均任务消耗 256K tokens,是传统 Chatbot 的 32 倍。且 Agent 流量有三个特点:任务明确、转化率高、可持续运行。
这种 Agent 作为互联网主体的新型流量该如何定价?当 Agent 成为服务的主要使用者,平台的产品设计需要重新考虑吗?
写在最后,AutoGLM 2.0 展现了云端执行架构的独特优势、端到端强化学习的技术突破、以及远低于竞品的运营成本,但仍存在平台兼容性、任务执行稳定性、场景泛化能力等不完美之处。这些问题可能恰恰证明这是一个真实的、正在快速迭代的产品。
团队选择全面开放而非邀请码机制,正是希望通过大规模用户使用加速产品完善和技术迭代。
智谱团队放手让 AutoGLM 2.0 进行市场检验,并期待其云端执行能力为 AI 融入物理世界带来无限可能。
更多技术细节,参阅智谱已发布的技术论文:
ComputerRL: Scaling End-to-End Online Reinforcement Learning for Computer Use Agents
https://arxiv.org/abs/2508.14040
MobileRL: Advancing Mobile Use Agents With Adaptive Online Reinforcement Learning
https://github.com/Xiao9905/AutoGLM/blob/main/static/papers/mobilerl_0820.pdf
文章来自于微信公众号“特工宇宙”,作者是“特工彩虹糖”。
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0