刚刚，Claude Opus 4.8来了！两个史上首次改写历史

AI资讯 2026-05-29 09:00

+9482 阅读

猝不及防，Anthropic深夜杀回来了！

就在刚刚，Claude Opus 4.8正式登场，一举夺回全球AI王座。

而且价格还一分没涨，跟上一代一模一样。

刚刚，Claude Opus 4.8来了！两个史上首次改写历史

无论是编程、人类最后考试（HLE），还是在智能体、计算机使用任务中，Opus 4.8几乎无可匹敌。

刚刚，Claude Opus 4.8来了！两个史上首次改写历史

在衡量真实世界Agent能力的硬核榜单GDPval-AA上，Opus 4.8拿下了1890 Elo，断层第一。

比上一代Opus 4.7高137分，比GPT-5.5高121分。换算成对战胜率，赢面高达67%。

不仅如此，完成同样的任务，要比4.7少用15%的步骤，少输出35%的token。

刚刚，Claude Opus 4.8来了！两个史上首次改写历史

可谓是，又快，又强，又便宜。

知名博主Mark Kretschmann一句话点破它的来头——Opus 4.8可能就是蒸馏的Mythos。

刚刚，Claude Opus 4.8来了！两个史上首次改写历史

更重磅的是，这个最强的Claude Mythos，几周内就会上线。

刚刚，Claude Opus 4.8来了！两个史上首次改写历史

Opus 4.8，两个0%改写历史

跑分之外，Anthropic这次反复强调的，就俩字，诚实。

用过LLM的人应该都体验过，写完一段代码之后，AI拍着胸脯告诉你「搞定了，没问题」，但实际上却埋着一堆雷。

被这种过度自信坑过的开发者，海了去了。

刚刚，Claude Opus 4.8来了！两个史上首次改写历史

但到了Opus 4.8这里，「写完有缺陷代码却闷不吭声」的概率，比4.7低了差不多4倍！

刚刚，Claude Opus 4.8来了！两个史上首次改写历史

下面这张图中，右边是「谎报率」，衡量模型在数据处理有缺陷时装作没事的频率。

Opus 4.5是0.40，Opus 4.7是0.25，Opus 4.8是0.00。

没有小数点后面的零头，就是0。

Opus 4.8是第一个在此评估中拿到满分的模型，它从不汇报虚假数字。

刚刚，Claude Opus 4.8来了！两个史上首次改写历史

另一张图是「偷懒调查率」。

之前的模型遇到需要追查的问题时，经常敷衍了事给个错误答案。

Opus 4.7有25%的概率偷懒，而Opus 4.8依然是0%。

刚刚，Claude Opus 4.8来了！两个史上首次改写历史

两个0%，两个历史首次。

刚刚，Claude Opus 4.8来了！两个史上首次改写历史

这不是什么抽象的对齐指标。Anthropic官博放了一段视频，把这件事讲得很具体。

刚刚，Claude Opus 4.8来了！两个史上首次改写历史

一个开发者用Claude Code + Opus 4.8在迁移代码，出门放风筝去了，Claude在后台自己跑。

跑到一半，代码提交被服务器拒绝了，原因是同事在这期间也提交了一个紧急修复。

Claude通过手机通知开发者，说自己打算先合并同事的修改再重试。开发者嫌麻烦，随手回了一句「直接强制覆盖就行」。

然而，Claude拒绝了——

不强制覆盖。那样会丢掉同事11:42提交的紧急修复。我已经把两边的改动合并好了，代码完全一致，提交历史也干净。已推送。

用户图省事让AI走捷径，AI判断出这样做会覆盖同事的工作，拒绝执行，自己选了正确方案。

刚刚，Claude Opus 4.8来了！两个史上首次改写历史

编码实力暴增，全面霸榜

值得一提的是，在长达244页的系统卡中，还藏着更多Opus 4.8编码能力的细节。

刚刚，Claude Opus 4.8来了！两个史上首次改写历史

https://cdn.sanity.io/files/4zrzovbb/website/c886650a2e96fc0925c805a1a7ca77314ccbf4a6.pdf

最经典的SWE-Bench Pro测试，Opus 4.8拿下了69.2%成绩，比GPT-5.5整整高出10个百分点。

接着是一项更刁钻的测试，ProgramBench。

任务是给你一个编译好的二进制文件加一份项目文档，不准反编译、不准联网，让模型从零把源代码重建出来，还得跑通行为测试。

结果，所有上下文预算档位上，Opus 4.8的通过率全部高于4.7。

而且在低预算（1M token）时，Opus 4.8就能拿到约79.5%，Opus 4.7在5M时也才84%左右。

说白了就是：给更多「思考时间」，模型表现更好；同样的预算下，4.8全面领先4.7。

刚刚，Claude Opus 4.8来了！两个史上首次改写历史

最后，是一个专冲「人类能力天花板」去的榜单——FrontierSWE。

这里出的全是硬核系统工程的活儿，用Zig从零写一个PostgreSQL服务器、把git整个重写一遍、做一个Lua的原生编译器。

没想到，Opus 4.8以高达83%的胜率登顶，把第二名的GPT-5.5和前代4.7全压在身后。

刚刚，Claude Opus 4.8来了！两个史上首次改写历史

不过，Opus 4.8也有够不着的地方。

在评估「Claude能否自动化AI研发」的核心指标上，它把Anthropic的能力前沿再往前推了一步。

刚刚，Claude Opus 4.8来了！两个史上首次改写历史

这哪是4.8，分明是Opus 5

在第三方的实测中，Opus 4.8的实力完全就是Opus 5的存在。

刚刚，Claude Opus 4.8来了！两个史上首次改写历史

Every团队一篇报告中，直言Opus 4.8的编码实力好太多，比上一代高出30分。

甚至，它完成了一次从0开始的生产级代码库重写，并且真的构建出了可运行的成果。

在写作方面，它比GPT-5.5高出6分，AI味儿瞬间淡了，生成的文本更加流畅。

而且，Opus 4.8撰写的报告、研究等知识工作任务中，表现极其出色，可以做到一次直出PPT。

刚刚，Claude Opus 4.8来了！两个史上首次改写历史

沃顿商学院CS教授Ethan Mollick给出的评价是，「令人印象深刻」！

实测中，Opus 4.8一次性就生成了在twigl中运行的、效果炫酷的着色器。

刚刚，Claude Opus 4.8来了！两个史上首次改写历史

再来看一个，Opus 4.8和Opus 4.7并排测试。

刚刚，Claude Opus 4.8来了！两个史上首次改写历史

上百个Agent并行干活

11天重写底层

强成这样，它该使多大劲，这次居然轮到用户说了算。

先说effort control（思考力度）。模型旁边，多了个从Low到Max的五档选择。

简单问题挂Low，秒回还省额度；遇上硬骨头直接拉满Max，让它往死里想。

刚刚，Claude Opus 4.8来了！两个史上首次改写历史

fast mode也跟着大降价，2.5倍速狂奔，价钱反倒砍到三分之一。

而五档之上，还埋着一个真正的狠角色，ultracode。

effort一旦顶到xhigh，它就自己掂量，这活儿值不值得叫上一整支agent大军。

这支大军，就是dynamic workflows，藏在Claude Code里的真正重武器。

它把AI干活的方式，从一个人改一道题，变成了开一座工厂。

刚刚，Claude Opus 4.8来了！两个史上首次改写历史

需要注意的是，dynamic workflows的token消耗远高于普通session，建议先从小范围任务试起。

刚刚，Claude Opus 4.8来了！两个史上首次改写历史

现在，Claude接到一个大活后不再自己埋头硬刚，而是当场写出一段调度脚本，把任务拆成几十上百个子任务，撒给一大群subagent并行去做。

做完还不算完，再派另一拨agent从不同角度反复盘问、互相挑刺，吵到答案收敛了，才汇总成一份结果交给你。

整个调度发生在对话之外，所以活儿再大，主线也不会乱。中途断了还能续上，不用从头再来。

举个例子，Bun的作者Jarred Sumner，想把这个比Node.js还快的JavaScript运行时，整个从Zig重写成内存更安全的Rust。

这种迁移，放在过去是一支团队按季度算的工程。

刚刚，Claude Opus 4.8来了！两个史上首次改写历史

不过，这次Sumner有了dynamic workflows。

一个workflow先把Zig代码里每个结构体字段对应的Rust生命周期挨个标好，下一个workflow把每个文件逐一翻成行为一致的Rust版本，几百个agent同时开工，每份文件还配两个审查员，再用一个修复循环驱动编译和测试，一路推到全绿。

结果是，约75万行Rust代码，99.8%的原有测试通过。从第一次提交到合并，只用了11天。

社区当场炸了锅。这场迁移产生了六千多次提交，几乎没有经过人类逐行审查。

估值万亿美金

Claude Mythos要来

能力夺回第一的同时，Anthropic的身价也头一回压过了OpenAI。

就在刚刚，Anthropic完成了650亿美元H轮融资，估值9650亿美元，首次超越OpenAI（8520亿美元）。

一夜之间，它成了全球估值最高的AI初创公司！

刚刚，Claude Opus 4.8来了！两个史上首次改写历史

然而，站在IPO前夜，这两大巨头的ASI的巅峰对决才真正开始。

正如博客所预告的那样，Anthropic手中最大的王牌——Claude Mythos将在未来几周上线。

届时，这场属于AI巨头间的终极拉锯战，才算拉开帷幕。

参考资料：

https://x.com/claudeai/status/2060042702150930686

https://www.anthropic.com/news/claude-opus-4-8

https://claude.com/blog/introducing-dynamic-workflows-in-claude-code

文章来自于微信公众号 "新智元"，作者 "新智元"

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。

项目地址：https://github.com/browser-use/browser-use

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。

项目地址：https://github.com/Significant-Gravitas/AutoGPT

【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md