葬AI基准测试更新：Seed 2.1 Pro急需摆脱平庸的重力

AI资讯 2026-06-29 09:19

+6574 阅读

「Claude斩杀线来了」

豆包产品无敌，但Seed模型一直不温不火，大伙对它的印象就两个：

工资高，隔三差五就有千万年包上亿年包新闻，也不知道真假；多模态，但编程能力不太行。

以至于你豆姐被戏称为糖包，甚至成了一个形容词。Gemini拉了，你们叫它北美大豆包。Grok更拉，你们居然说这是北美二豆包。

真是岂有此理！岂不闻君忧臣劳君辱臣死之理乎！豆姐卫士何在？

所以我们有理由相信，Seed模型团队有充足动力憋个大的，不求像Seedance那样放大卫星，至少要将文本模型赶上国内一线水平。

这次Seed 2.1 Pro发布，特别强调了编程和长任务执行的能力，宣传口号是终于能胜任Agent工作的模型，还号称补上了Coding的拼图。

事实果真如此吗？

为了客观体现Seed 2.1 Pro的编程水平，我用它重跑了一遍葬AI基准测试。让我用最直白、不绕弯的方式，不卖关子，一次性给你模型能力榜单⬇️

葬AI基准测试更新：Seed 2.1 Pro急需摆脱平庸的重力

结果令人震惊。Seed 2.1 Pro的得分和MiniMax M3差不多，略低于Kimi K2.7 Code ，相比国模第一GLM 5.2更是有明显差距。

这次增加测试了Seed 2.1 Pro和Step 3.7 Flash两个新模型。

测试方法依然是，每个模型跑10轮，每轮独立的Opencode会话，输入同一个执行方案，来重构美丽的葬AI网站（funeralai.cc）。由Codex来调度和打分，用加权平均分排序。

葬AI网站上有测试模型的全部产物，8x10一共80个，大伙可以自己直观感受每个模型的差距。

Seed 2.1 Pro的问题主要出在，很难一次性生成好的结果，工程能力不太稳定。

这导致了Seed的模型调用数比较高，跑完测试任务的调用数为449次，远高于GLM 5.2（321）、Qwen 3.7 Max（218），和Step 3.7 Flash（443）一个水平，仅次于全场调用数最高的MiniMax M3（653）。

体现在生成结果上，Seed 2.1 Pro的产出物很不稳定。

Seed的高分很高，产出了3个高分，但低分更低，波动显著，拉低了总得分。比如下图就是一个高分产物，知识图谱清晰可交互。

葬AI基准测试更新：Seed 2.1 Pro急需摆脱平庸的重力

https://funeralai.cc/test/r4/doubao-seed-2-1-pro-260628

主要扣分点是，Seed生成不明白知识图谱，这种相对复杂的前端任务，Seed在10次里失败了6次。比如下图就是一个典型的低分产物，知识图谱是空的。

葬AI基准测试更新：Seed 2.1 Pro急需摆脱平庸的重力

https://funeralai.cc/test/r10/doubao-seed-2-1-pro-260628

另一个大问题是，Seed 2.1 Pro的生成速度太慢了。

跑完测试任务耗时128.9分钟，仅次于MiniMax M3（153.9分钟），远高于于全场最快的DeepSeek V4 Pro（46.7分钟），和比较快的Qwen 3.7 Max（53.3分钟）、Step 3.7 Flash（57.4分钟）、GLM 5.2（69.7分钟）。

生成速度慢的原因，可能是Seed的长程任务执行能力不太行。

这其实是符合豆包自己发布的榜单的。

葬AI基准测试更新：Seed 2.1 Pro急需摆脱平庸的重力

经过凯一的提醒，我发现原来字节自己跑的测试也反映了这个问题。这两个 Bench 对长程任务 plan 能力的评估比较有代表性，豆包也没藏着掖着，确实不够SOTA。

坦诚清晰，符合字节价值观👍

凯一对Seed 2.1 Pro评分的解释是，「Seed 通用能力其实好一点，不是 Coding 专精，如果测深度调研，数据爬取，在浏览器里点点点，可能 Seed 就比 GLM 好，GLM 是 Coding 专精。」

不过，现在模型厂全都在卷编程，Seed这次更新也主打任务执行和编程能力。还是让我们回到这次编程测试上。

一共10轮测试任务，Seed 2.1 Pro干出来了8个无效进程，有效产物命中率等于55.6%。依旧远高于GLM 5.2的3个无效，Kimi的2个无效和Step一个无效，其他模型没有失败进程。

调用次数高、任务失败较多，导致了Seed 2.1 Pro的成本也较高，跑完测试任务一共花了41.3元，依旧仅次于Opus 4.8（202.5 元）和Kimi K2.7 Code（164.6 元），远高于DS、Qwen、Minimax都在20元左右的成本，和GLM 5.2成本一致。

所以，在没有任何折扣，直接从火山引擎官网调用的情况下，Seed 2.1 Pro做编程任务的性价比显著不高。

为了直观感受这些模型的完成任务速度、花费和调用数，我也做了一个葬AI基准测试性价比榜。

让大伙除了认识到最强模型之外，也能给予高性价比模型一点关心❤️

葬AI基准测试更新：Seed 2.1 Pro急需摆脱平庸的重力

其中可以看出，阶跃的Step 3.7 Flash模型特别让我惊喜。它的能力得分比DeepSeek V4 Pro高，成本花费居然比DS还便宜，跑完测试任务只花了11.2元，连注册账号送的15块钱都没用完。

所以在加权了调用数、耗时这些维度后，Step 3.7 Flash是所有模型中的性价比第三名。

性价比榜还非常直观地展示出了一条危险线，就是不仅存在DeepSeek斩杀线，也有Claude斩杀线。

性价比低于梁圣很正常，但性价比低于Claude就非常危险。而MiniMax M3、Kimi K2.7 Code 、Seed 2.1 Pro这三个模型的性价比指数都低于Opus 4.8了。

要努力啊，Kimi、MiniMax和Seed的家人们，一定要努力逃逸平庸的重力💪

我是相信Seed的，因为从未听说过Seed蒸馏，国产之光靠你了。

葬AI基准测试更新：Seed 2.1 Pro急需摆脱平庸的重力

最后声明一下，葬AI基准测试依然没有接受任何人的赞助。

这是相对客观的编程能力的评测。两个榜单和所有测试产物都可以在葬AI网站阅读详细版：

funeralai.cc/test

关于Seed模型，明天还有一篇骡子马写的主观评测，看看Seed 2.1 Pro多模态、通用能力啥的到底行不行。力争主客观结合，帮助家人把每个模型整明白🫰

（本文封面由ChatGPT生成，纯人工写作）

文章来自于"葬AI"，作者 "葬愛咸鱼"。

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。

项目地址：https://github.com/Significant-Gravitas/AutoGPT

【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md