阶跃发布Step 3.7 Flash:一款为「烧钱时代」准备的Agent模型

首页 AI资讯 AI技术研报 AI监管政策 AI产品测评 AI商业项目 arena全球大模型排行榜 AI产品热榜 AI 源力市场 AI专利库 AI需求对接 AI新闻日报
下载 AITNT APP
🍎 iOS 下载 🤖 Android 下载
正文
资源拓展
阶跃发布Step 3.7 Flash:一款为「烧钱时代」准备的Agent模型
2026-05-29 17:06

今年 3 月份,奥特曼公开表示:


「我们看到这样一个未来:智能将成为一种公用事业,就像电力或自来水一样,人们会按表从我们这里购买它。」


阶跃发布Step 3.7 Flash:一款为「烧钱时代」准备的Agent模型


https://x.com/Vivek4real_/status/2059058179955380493?s=20


这个未来来得比预想更快,也比预想更贵。


米哈游员工为了冲项目,搭了几十个 Agent,一晚上烧掉 200 万元 token。


阶跃发布Step 3.7 Flash:一款为「烧钱时代」准备的Agent模型


https://x.com/wayen_ai/status/2058786389009854868?s=20


Uber 四个月烧光了 2026 年全年 AI 预算,微软财大气粗也扛不住 token 消耗,直接把 Claude Code 权限砍了。


就连英伟达副总裁都直言:「我们团队用 AI 的花费比请真人还贵。现在 AI 的成本已经超过人类员工了。」


阶跃发布Step 3.7 Flash:一款为「烧钱时代」准备的Agent模型


https://x.com/Vivek4real_/status/2058607634182537496?s=20


这背后有其结构性原因。


真实的 Agent 工作流和普通对话式任务不同,模型进入生产环境后,一个 Agent 任务动辄触发数十次模型调用,搜索、工具调用、代码执行、结果验证…… 每一轮都在累积延迟,token 消耗呈指数级增长。


开发者的实践已经验证,在选择 Agent 核心模型时,任务场景、响应速度和成本,与工具调用能力同等重要。盲目追求大参数量,在工程上并不可取


于是今年以来,Flash 模型集中爆发。


Gemini 3.5 Flash、GPT-5.4 mini、Claude Haiku 4.5、Qwen3.6-Flash、DeepSeek-V4-Flash…… 头部厂商几乎同步押注轻量高效路线。


但在这场轻量模型竞赛中,很多厂商的思路是削减参数、压缩成本、牺牲部分能力。阶跃星辰则不同,它不把 Flash 模型当旗舰平替,而是专门为 Agent 工作流重新设计一款模型。


继 Step 3.5 Flash 后,阶跃星辰最近又推出新一代高效率 Flash 开源模型 ——Step 3.7 Flash


该模型最大特点就是(模)、(速)、(用)、(钱)。总参数 196B,采用稀疏 MoE 架构,推理激活参数仅 11B,配备 1.88B ViT 视觉编码器,推理速度最高 400 TPS,支持 256K 上下文。


作为一款面向真实 Agent 工作流设计的高效率模型,它具备原生多模态理解能力,并打通了搜索、工具调用、GUI 感知、代码生成等完整 Agent Loop 执行能力。


从 benchmark 来看,Step 3.7 Flash 没有明显短板。在通用 Agent 能力上,ClawEval-1.1 以 67.1% 拿下参测模型第二,Toolathlon、GPDval、HLE w. Tool 三项也均处于领先梯队;Agentic Coding 方向,SWE-PRO 达到 56.3、Terminal-Bench v2.1 达到 59.5;多模态方向则是 SimpleVQA(search)以 79.2 位居榜首,V*(python)以 95.3 排在第三。


阶跃发布Step 3.7 Flash:一款为「烧钱时代」准备的Agent模型


柱状图中左一为 Step 3.7 Flash、左二为 Step 3.5 Flash(Multimodal 除外)


接下来,我们就将 Step 3.7 Flash 放进真实的工作场景测评下。


原生多模态:它能「看懂」任务现场吗?


先来试试原生多模态能力。


为了压缩成本削减参数,有些轻量模型最先被牺牲的往往是多模态能力。


而在真实任务里,大量输入根本不是干净的结构化文本,还包括 GUI 截图、扫描文档、网页内容,Agent 要进入这些场景,视觉理解是绕不开的前提。


Step 3.7 Flash 新增多模图像理解、识别、推理、感知,可处理复杂视觉信息,并在跨模态上下文中进行联合推理。


比如让它分析 Pinterest 界面帖子的设计特点,它不仅能识别 UI 元素,还能理解应用界面的内容结构、设计逻辑与信息组织方式。


阶跃发布Step 3.7 Flash:一款为「烧钱时代」准备的Agent模型


再比如框选驾驶舱界面,让它生成起飞操作说明。


模型需要同时识别大量专业仪表、按钮与状态信息,并理解「如何起飞」背后的操作逻辑,什么时候推油门、何时收起起落架等。


相比传统多模态模型的描述画面, Step 3.7 Flash 完成的是「环境感知 → 状态理解 → 任务推理 → 操作指导」的完整闭环。


阶跃发布Step 3.7 Flash:一款为「烧钱时代」准备的Agent模型


在处理视觉任务时,常规做法是把大量视觉常识和感知能力硬塞进模型权重,但对 11B 激活量级的 Flash 模型来说,这条路天然受限。阶跃选择在权重里只留最核心的推理引擎,把感知边界推到推理阶段动态解决。


具体而言,模型可在推理中途自主对图像进行裁切、缩放和重读,告别「一眼定生死」的单步感知局限,当任务超出自身视觉常识边界时,还能主动发起检索、交叉验证。「重新看」和「去查证」在同一个推理循环内自主闭环,能力上限不再受任何单点工具约束。


Deep Research:快速检索,结构化交付


在 Deep Research 测评中,我们让 Step 3.7 Flash 围绕「2026 年第一季度中国新能源汽车市场」这一主题,检索 3-5 个高可信度来源,对比比亚迪、特斯拉、理想、小鹏四个品牌的市场表现,生成一份结构化调研简报。


模型快速完成检索和信息整合,从销量数据、价格区间、主要优缺点以及购车建议等方面进行结构化输出。


阶跃发布Step 3.7 Flash:一款为「烧钱时代」准备的Agent模型


在 Step 3.7 Flash 的工作方式里,搜索真正进入了推理循环本身,不再是外挂的辅助工具。


它能在推理中途主动判断「当前信息是否足够」,不足则自主发起新一轮检索,检索回来再判断是否可信,再决定下一步怎么做。这种「搜 - 理解 - 再搜 - 验证 - 再推理」的循环,让模型在任务执行过程中能持续锚定真实世界的信息。


多 Agent 并行:400 TPS 能承载多少并发?


下面这个场景则是多个 Agent 并行推理测试。


40 个不同身份的虚拟角色扮演产品评测团,对一个产品问题进行并行判断,然后实时汇总它们对 5 个 MVP 方向的偏好。


这群虚拟专家可以同时分析,分工执行,最终给出更稳健、更可解释的结果。


阶跃发布Step 3.7 Flash:一款为「烧钱时代」准备的Agent模型


对于需要大量并发推理的 Agent 场景,模型推理速度直接决定整个工作流能跑多快、能承载多少并行任务。


此外,模型还能依托精准推理能力和丰富知识储备,快速构建结构清晰、关联明确的知识图谱。


阶跃发布Step 3.7 Flash:一款为「烧钱时代」准备的Agent模型


GUI 操控:从「理解界面」到「操作设备」


Step 3.7 Flash 在 GUI 理解能力不仅限于多模态识别和规划,作为一个基座模型,已经具备实时操作设备的能力。


我们找来一台安卓测试机,不做任何额外的模型微调或本地推理配置,直接以 Step 3.7 Flash 作为决策大脑,看它在真实手机上能做到什么程度。


注:本次测试采用小米手机,使用小米互联服务「妙享桌面」同步至电脑录屏,敏感信息马赛克处理。


第一关:信息汇总。模型顺利完成,基本流畅:


「帮我看看微博文娱热搜上有哪些内容,总结一下给我」。


阶跃发布Step 3.7 Flash:一款为「烧钱时代」准备的Agent模型


第二关:出行规划。任务涉及多个条件判断和跨 App 操作:


我明天早上 9 点要到「北京国贸大厦」开会。帮我查一下明天早上的天气, 如果下雨就帮我叫一个网约车(不用真的下单,截图到确认页面即可),如果不下雨就查一下地铁路线。打车和查线路均使用百度地图。最后,把天气情况、出行方案和预计出发时间整理成文字输入到笔记中。


阶跃发布Step 3.7 Flash:一款为「烧钱时代」准备的Agent模型


Step 3.7 Flash 在复杂逻辑的 GUI 操作中表现游刃有余,甚至能理解地图导航中查看地铁线路的细节,最终成功从多个 App 采集信息,整理进备忘录。


第三关:社媒 + 电商跨平台任务


我想了解一下最近新出的降噪耳机。帮我在小红书上搜「2026 降噪耳机推荐」,找 3 篇点赞超过 300 的笔记,提取每篇推荐的型号、价格区间和博主提到的优缺点,找到最合适的一款帮我在京东购买。


阶跃发布Step 3.7 Flash:一款为「烧钱时代」准备的Agent模型


社交媒体内容多样、电商平台 UI 结构复杂、逻辑判断难度高,但最终结果超出预期,全程只有电商平台的安全验证环节需要真人配合操作,其余一切流畅执行。


Agent 时代,Flash 模型不是旗舰版平替


过去,Flash 模型常被视为旗舰模型的「轻量替代品」,用在不那么重要的场景,或作为成本兜底选项。


这个认知正在被打破。


随着推理、规划、工具调用、长上下文和环境反馈能力持续增强,模型越来越多地承担起任务拆解、工具选择、执行反馈和结果修正等 Agent 核心环节。


Flash 模型由此成了专为高频、多步骤、低延迟的 Agent 工作流优化的独立品类。


当然,这里有一个关键前提,Flash 模型必须足够「能干」,否则省下来的成本会以任务失败率的代价偿还回去。如何在压缩推理成本的同时,不丢掉完成复杂任务的能力,才是 Flash 模型赛道真正的技术分水岭。


阶跃星辰正是沿着这条路线突破的。今年 2 月,Step 3.5 Flash 上线,主打在 Agent 场景实现「更快、更强、更稳」的执行效果,上线两天登顶 OpenRouter Trending 榜,一个月后拿下 OpenClaw 调用量月榜全球第一。


在此基础上,Step 3.7 Flash 进一步迭代,兼顾更多能力的协同效率,并在成本、稳定性与部署形态上进一步满足长期运行的要求。


这正是 Agent 工作流的本质要求。拿着有限预算跑完整条任务链,谁能在每一步调用中少犯错、少超时、少超支,谁才是生产环境的真正赢家。在这个维度上,最好的模型未必是单次推理能力最强的,但一定是能被持续调用、稳定运行、成本可控的


正如阶跃星辰联合创始人、CTO 朱亦博所言:「我们相信未来的大模型应用方式,不是一个超大尺寸的模型解决所有问题。人类社会有不同的任务,我们追求的是许多不同模型的矩阵,Agent 是解决任务的方式。」


而 Step 3.7 Flash 证明,Flash 模型不是旗舰的廉价替代品,它可以有自己的完整能力矩阵,「多快好省」地成为 Agent 时代的主力。


文章来自于微信公众号 "机器之心",作者 "机器之心"

1
AI工作流

【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!

项目地址:https://github.com/coze-dev/coze-studio


【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/付费

2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner

添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
IOS下载
安卓下载
微信群