字节按下 AI Agent 加速键

AI资讯 2025-04-18 14:32

+8943 阅读

字节按下 AI Agent 加速键

经历了 2025 年初 DeepSeek、Manus 们的冲击，大厂正在重新明确自己下一步的战略。

DeepSeek-R1 的好文笔、GPT-4o 的吉卜力画风、OpenAI o3 的看图推导地理位置……

这是过去两个月里此起彼伏刷屏的现象级 AI 产品，你能明显看到：强化学习终于可以泛化了，多模态模型也越来越可用了。这也意味着，2025 年真的进入了 Agent 应用落地、加速落地的时间点。

此前爆火的 AI Agent——Manus 团队曾透漏，去年底 Claude 3.5 Sonnet 在长程规划任务、逐步解决问题的能力上达到了做 Agent 所需要的程度，这是 Manus 诞生的前提。

现在，随着深度思考模型和多模态模型能力的进一步成熟，一定会有更多能处理复杂任务的 Agent。

基于这个判断，4 月 17 日，字节跳动旗下的云和 AI 服务平台「火山引擎」面向企业市场发布了更强的模型——豆包 1.5・深度思考模型，这也是字节跳动旗下 AI 应用豆包 App 背后的推理模型首次亮相。一同推出的，还有豆包・文生图模型 3.0、以及升级版的视觉理解模型。

对于这次发布的模型，火山引擎总裁谭待认为，「深度思考模型是构建 Agent 的基础，模型要有能力做好思考、规划和反思，并且一定要支持多模态，就像人类具备视觉和听觉一样，Agent 才能更好地处理复杂任务。」

而当 AI 进化出端到端的自主决策和执行能力，走向核心生产环节，火山引擎也准备了让 Agent 操作数字世界和物理世界的架构和工具——OS Agent 解决方案及 AI 云原生推理套件，帮助企业更快、更省地构建和部署 Agent 应用。

在谭待看来，开发 Agent 就像开发一个网站或 APP 一样，仅有模型 API 无法完全解决问题，需要很多云上的 AI 云原生组件。过去，云原生有其核心定义，如容器、弹性等；现在，AI 云原生也会有类似的关键要素。通过在 AI 云原生方面的持续思考、探索与快速行动——比如围绕模型做各种中间件、评测、监控、可观察性、数据处理、安全保障以及相关组件如 Sandbox 等，火山引擎致力于成为 AI 时代基础设施的最优解。

01 豆包深度思考模型，像人一样边看边想边搜

年初 DeepSeek-R1 发布以来，不少 ToC 应用都接入了 R1 推理模型，豆包 App 除外。3 月初在豆包 App 上线的「深度思考」模式，背后是字节跳动自研的豆包深度思考模型。

现在，这一推理模型——豆包 1.5 · 深度思考模型正式发布，可以在火山方舟平台体验和调用。

点击联网模式，豆包就可以像人类思考问题时一样，想一想、搜一搜、再接着想……，最终以解决问题为目的。

这是在购物场景的一个例子，在给定预算、大小等限制条件后，让豆包推荐一套合适的露营装备。

字节按下 AI Agent 加速键

在这个问题上，豆包首先拆解了注意事项，规划了需要的信息，接着判断出缺失的信息、并进行联网搜索。这里它搜索了 3 轮，先是搜索价格和性能，确保符合预算和需求；还考虑了儿童单独的需求，最后考虑到天气，搜索了相关的详细评测。边想边搜，直到获取了做决策所需的全部必要上下文，给出了推理答案。

除了边搜边想，豆包深度思考模型还具备视觉推理能力，像人一样，不光能基于文字思考，也能基于看到的画面来思考。

就拿点菜这个场景来说，五一黄金周马上到了，出国旅游的朋友们不用拍照上传给翻译软件翻译菜单了，豆包深度思考模型可以直接根据图片帮你点菜。

在下面这个例子中，豆包深度思考模型首先进行了汇率换算来控制预算，接着考虑到了老人、孩子的喜好，同时仔细避开了他们过敏的菜肴，直接给出了菜单方案。

字节按下 AI Agent 加速键

联网、思考、推理、多模态，豆包 1.5・深度思考模型展现了综合推理能力，能够解决更加复杂的问题。

根据技术报告，豆包 1.5・深度思考模型在专业领域的推理任务中完成度较高，比如在数学推理 AIME 2024 测试得分追平 OpenAI o3-mini-high，编程竞赛和科学推理测试成绩也接近 o1。在创意写作、人文知识问答等通用任务上，模型也展示出优秀的泛化能力，能胜任更广泛的使用场景。

豆包深度思考模型还具备低延迟的特性，其技术报告显示，该模型采用了 MoE 架构，总参数为 200B，激活参数仅 20B，以较小参数实现媲美顶尖模型的效果。基于高效算法和高性能推理系统，豆包模型 API 服务在保障高并发的同时，延迟低至 20 毫秒。

同时，它也有多模态能力，可以把深度思考模型用于各种各样的场景，例如它可以看懂复杂的企业项目管理流程图表，快速定位到关键信息，并以强大的指令遵循能力，严格按照流程图，回答客户的问题；分析航拍图时，能结合地貌特征判断区域开发可行性。

除了推理模型，这次豆包大模型家族还带来了两个模型的更新。在文生图模型方面，豆包推出了最新的 3.0 升级版本，这个版本能够实现更好的文字排版表现、实拍级的图像生成效果，以及 2K 的高清图片生成方式。

字节按下 AI Agent 加速键

新版模型不仅较好地解决了小字和长文本的生成难题，还改善了图片排版。比如最左边生成的「现形」和「丰收计划」两幅海报，细节生成比较精细，排版也比较自然，可以拿来即用。

另一个升级的是豆包 1.5 视觉理解模型。新版本有两个关键更新，视觉定位更精准，以及对视频的理解更智能。

在视觉定位方面，豆包 1.5 视觉理解模型支持多目标、小目标、通用目标的框定位和点定位，并支持定位计数，描述定位内容，以及 3D 定位等。视觉定位能力的提升，可以让模型进一步扩展应用场景，例如线下门店的巡检场景、GUI agent、机器人训练、自动驾驶训练等。

在视频理解能力上，该模型也有大幅提升，比如记忆能力、总结理解能力、速度感知能力、长视频理解等。企业可以基于视频理解打造更加有趣的商业化应用，比如在家庭场景，我们可以基于视频理解能力，加上向量搜索，对家中的监控视频进行语义搜索。

比如下面这个例子中，养猫的人希望了解猫每天的活动情况，现在直接搜索「今天小猫在家都干什么了？」就能够快速返回语义相关的视频片段，供用户查看。

字节按下 AI Agent 加速键

借助带视觉理解的推理模型和较大的推理能力储备，以前很多做不了的事情现在都可以实现，可以解锁更多的场景，比如有这样功能的摄像头一定会更受欢迎，AI 眼镜、AI 玩具、智能摄像头、门锁等也会有新的发展空间。

02 云，进入 Agentic AI 时代

这两天，OpenAI 研究员姚顺雨（Deep Research、Operator 核心作者）在「AI 的下半场」一文中指出，随着强化学习终于找到了可以泛化的路径，不只是在特定领域奏效，比如打败人类棋手的 AlphaGo，而是可以做到在软件工程、创意写作、IMO 级别的数学、鼠标和键盘操作等等各方面都做到接近人类竞赛的水平。这种情况下，比拼榜单分数、在更复杂的榜单上得更高的分数会更容易，但这种评价方式已经过时了。

现在比拼的是定义问题的能力。换句话说，AI 要在现实生活中解决什么问题？

2025 年，这个答案是生产力 Agent。当前，AI 的应用场景正在快速迈入 Agentic AI 时代，AI 逐渐能完成专业度较高、耗时较长的完整任务。在这种情况下，火山引擎也为企业「定义自己的通用 Agent」搭建了一系列基础设施。

其中最重要的是模型，能够自主规划、反思、端到端地自主决策和执行，走向核心生产环节。同时，也需要多模态推理能力，让其在真实世界可以通过耳朵、嘴巴和眼睛来共同完成任务。

模型之外，Infra 技术栈也需要不断进化。就比如随着 MoE 架构显示出更高效的优势，逐渐成为模型的主流架构，随之而来地，调度适配 MoE 模型需要更复杂、灵活的云计算架构和工具。

现在在企业通用 Agent 的场景下，火山引擎推出了更好的架构和工具——OS Agent 解决方案，支持大模型来操作数字和物理世界，比如由 Agent 操作浏览器，搜索商品页，实现 iPhone 比价的任务，甚至由 Agent 在远程计算机上用剪映进行视频编辑、配乐等等。

字节按下 AI Agent 加速键

当前，火山引擎 OS Agent 解决方案包含豆包 UI-TARS 模型，以及 veFaaS 函数服务、云服务器、云手机等产品，实现对代码、浏览器、电脑、手机以及其他 Agent 的操作。其中，豆包 UI-TARS 模型将屏幕视觉理解、逻辑推理、界面元素定位和操作整合在一起，突破传统自动化工具依赖预设规则的局限性，为 Agent 的智能交互提供了更接近人类操作的模型基础。

在通用型 Agent 场景里，火山引擎通过这套 OS Agent 解决方案让企业内部、个人或特定领域，根据需要进行 Agent 定义和探索。

在垂直类 Agent 上，火山引擎则会基于自身优势领域进行探索，比如之前推出「智能编程助手 Trae」以及数据产品「Data Agent」，后者通过构建数据飞轮，将数据处理能力发挥到极致。

另一方面，随着 Agent 的渗透，也会带来更大量的模型推理消耗。面对大规模推理需求，火山引擎专门打造了 AI 云原生 ServingKit 推理套件，让模型部署更快、推理成本更低，GPU 消耗相比传统方案降低 80%。

在谭待看来，为了满足 AI 时代的需求，火山引擎会在三个方面持续发力：持续优化模型，保持竞争力；不断降低成本，包括费用、延迟和提高吞吐率；让产品更易于落地，比如像扣子、HiAgent 面向开发者的工具，还有云原生组件 OS Agent 等。保持产品和技术领先，市场份额也会领先。此前 IDC 发布的《中国公有云大模型服务市场格局分析，1Q25》显示，火山引擎以 46.4% 的市场份额位居第一。

去年 12 月，豆包大模型的日均 tokens 调用量是 4 万亿。截至今年 3 月底，这个数字已经超过了 12.7 万亿，相比豆包大模型刚发布时，在短短不到一年的时间里，实现了超过 106 倍的高速增长。未来，随着深度思考模型、视觉推理的进一步成熟和 AI 云基础设施的优化，Agent 还会带动更大的 tokens 调用量。

文章来自于“极客公园”，作者“宛辰”。

字节按下 AI Agent 加速键

OWL

【开源免费】OWL是一个完全开源免费的通用智能体项目。它可以远程开Ubuntu容器、自动挂载数据、做规划、执行任务，堪称「云端超级打工人」而且做到了开源界GAIA性能天花板，达到了57.7%，超越Huggingface 提出的Open Deep Research 55.15%的表现。

项目地址：GitHub：https://github.com/camel-ai/owl

OpenManus

【开源免费】OpenManus 目前支持在你的电脑上完成很多任务，包括网页浏览，文件操作，写代码等。OpenManus 使用了传统的 ReAct 的模式，这样的优势是基于当前的状态进行决策，上下文和记忆方便管理，无需单独处理。需要注意，Manus 有使用 Plan 进行规划。

项目地址：https://github.com/mannaandpoem/OpenManus

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！

项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址：https://github.com/n8n-io/n8n

在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。

项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file

【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用：https://vectorvein.ai/（付费）

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。

项目地址：https://github.com/Significant-Gravitas/AutoGPT

【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

RAG

【开源免费】graphrag是微软推出的RAG项目，与传统的通过 RAG 方法使用向量相似性作为搜索技术不同，GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址：https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG，Agent，模型管理等一站式AI开发的工具平台，并且项目方一直持续维护。其中在任务编排方面相对领先对手，可以帮助研发实现像字节扣子那样的功能。

项目地址：https://github.com/langgenius/dify

【开源免费】RAGFlow是和Dify类似的开源项目，该项目在大文件解析方面做的更出色，拓展编排方面相对弱一些。

项目地址：https://github.com/infiniflow/ragflow/tree/main

【开源免费】phidata是一个可以实现将数据转化成向量存储，并通过AI实现RAG功能的项目

项目地址：https://github.com/phidatahq/phidata

【开源免费】TaskingAI 是一个提供RAG，Agent，大模型管理等AI项目开发的工具平台，比LangChain更强大的中间件AI平台工具。

项目地址：https://github.com/TaskingAI/TaskingAI

免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点，无需魔法付费，即可无限制使用GPT-4o等多个海外模型产品。

在线使用：https://ffa.chat/