刚刚,Claude Opus 4.8来了!两个史上首次改写历史

首页 AI资讯 AI技术研报 AI监管政策 AI产品测评 AI商业项目 arena全球大模型排行榜 AI产品热榜 AI 源力市场 AI专利库 AI需求对接 AI新闻日报
下载 AITNT APP
🍎 iOS 下载 🤖 Android 下载
正文
资源拓展
刚刚,Claude Opus 4.8来了!两个史上首次改写历史
2026-05-29 09:00

猝不及防,Anthropic深夜杀回来了!


就在刚刚,Claude Opus 4.8正式登场,一举夺回全球AI王座。


而且价格还一分没涨,跟上一代一模一样。


刚刚,Claude Opus 4.8来了!两个史上首次改写历史


无论是编程、人类最后考试(HLE),还是在智能体、计算机使用任务中,Opus 4.8几乎无可匹敌。


刚刚,Claude Opus 4.8来了!两个史上首次改写历史


刚刚,Claude Opus 4.8来了!两个史上首次改写历史


在衡量真实世界Agent能力的硬核榜单GDPval-AA上,Opus 4.8拿下了1890 Elo,断层第一。


比上一代Opus 4.7高137分,比GPT-5.5高121分。换算成对战胜率,赢面高达67%。


不仅如此,完成同样的任务,要比4.7少用15%的步骤,少输出35%的token。


刚刚,Claude Opus 4.8来了!两个史上首次改写历史


刚刚,Claude Opus 4.8来了!两个史上首次改写历史


可谓是,又快,又强,又便宜。


知名博主Mark Kretschmann一句话点破它的来头——Opus 4.8可能就是蒸馏的Mythos。


刚刚,Claude Opus 4.8来了!两个史上首次改写历史


更重磅的是,这个最强的Claude Mythos,几周内就会上线。


刚刚,Claude Opus 4.8来了!两个史上首次改写历史


刚刚,Claude Opus 4.8来了!两个史上首次改写历史


Opus 4.8,两个0%改写历史


跑分之外,Anthropic这次反复强调的,就俩字,诚实。


用过LLM的人应该都体验过,写完一段代码之后,AI拍着胸脯告诉你「搞定了,没问题」,但实际上却埋着一堆雷。


被这种过度自信坑过的开发者,海了去了。


刚刚,Claude Opus 4.8来了!两个史上首次改写历史


但到了Opus 4.8这里,「写完有缺陷代码却闷不吭声」的概率,比4.7低了差不多4倍!


刚刚,Claude Opus 4.8来了!两个史上首次改写历史


下面这张图中,右边是「谎报率」,衡量模型在数据处理有缺陷时装作没事的频率。


Opus 4.5是0.40,Opus 4.7是0.25,Opus 4.8是0.00


没有小数点后面的零头,就是0。


Opus 4.8是第一个在此评估中拿到满分的模型,它从不汇报虚假数字。


刚刚,Claude Opus 4.8来了!两个史上首次改写历史


另一张图是「偷懒调查率」。


之前的模型遇到需要追查的问题时,经常敷衍了事给个错误答案。


Opus 4.7有25%的概率偷懒,而Opus 4.8依然是0%。


刚刚,Claude Opus 4.8来了!两个史上首次改写历史


两个0%,两个历史首次。


刚刚,Claude Opus 4.8来了!两个史上首次改写历史


这不是什么抽象的对齐指标。Anthropic官博放了一段视频,把这件事讲得很具体。


刚刚,Claude Opus 4.8来了!两个史上首次改写历史


一个开发者用Claude Code + Opus 4.8在迁移代码,出门放风筝去了,Claude在后台自己跑。


跑到一半,代码提交被服务器拒绝了,原因是同事在这期间也提交了一个紧急修复。


Claude通过手机通知开发者,说自己打算先合并同事的修改再重试。开发者嫌麻烦,随手回了一句「直接强制覆盖就行」。


然而,Claude拒绝了——


不强制覆盖。那样会丢掉同事11:42提交的紧急修复。我已经把两边的改动合并好了,代码完全一致,提交历史也干净。已推送。


用户图省事让AI走捷径,AI判断出这样做会覆盖同事的工作,拒绝执行,自己选了正确方案。


刚刚,Claude Opus 4.8来了!两个史上首次改写历史


编码实力暴增,全面霸榜


值得一提的是,在长达244页的系统卡中,还藏着更多Opus 4.8编码能力的细节。


刚刚,Claude Opus 4.8来了!两个史上首次改写历史


https://cdn.sanity.io/files/4zrzovbb/website/c886650a2e96fc0925c805a1a7ca77314ccbf4a6.pdf


最经典的SWE-Bench Pro测试,Opus 4.8拿下了69.2%成绩,比GPT-5.5整整高出10个百分点。


接着是一项更刁钻的测试,ProgramBench。


任务是给你一个编译好的二进制文件加一份项目文档,不准反编译、不准联网,让模型从零把源代码重建出来,还得跑通行为测试。


结果,所有上下文预算档位上,Opus 4.8的通过率全部高于4.7。


而且在低预算(1M token)时,Opus 4.8就能拿到约79.5%,Opus 4.7在5M时也才84%左右。


说白了就是:给更多「思考时间」,模型表现更好;同样的预算下,4.8全面领先4.7。


刚刚,Claude Opus 4.8来了!两个史上首次改写历史


刚刚,Claude Opus 4.8来了!两个史上首次改写历史


刚刚,Claude Opus 4.8来了!两个史上首次改写历史


最后,是一个专冲「人类能力天花板」去的榜单——FrontierSWE。


这里出的全是硬核系统工程的活儿,用Zig从零写一个PostgreSQL服务器、把git整个重写一遍、做一个Lua的原生编译器。


没想到,Opus 4.8以高达83%的胜率登顶,把第二名的GPT-5.5和前代4.7全压在身后。


刚刚,Claude Opus 4.8来了!两个史上首次改写历史


不过,Opus 4.8也有够不着的地方。


在评估「Claude能否自动化AI研发」的核心指标上,它把Anthropic的能力前沿再往前推了一步。


刚刚,Claude Opus 4.8来了!两个史上首次改写历史


这哪是4.8,分明是Opus 5


在第三方的实测中,Opus 4.8的实力完全就是Opus 5的存在。


刚刚,Claude Opus 4.8来了!两个史上首次改写历史


Every团队一篇报告中,直言Opus 4.8的编码实力好太多,比上一代高出30分。


甚至,它完成了一次从0开始的生产级代码库重写,并且真的构建出了可运行的成果。


在写作方面,它比GPT-5.5高出6分,AI味儿瞬间淡了,生成的文本更加流畅。


而且,Opus 4.8撰写的报告、研究等知识工作任务中,表现极其出色,可以做到一次直出PPT。


刚刚,Claude Opus 4.8来了!两个史上首次改写历史


沃顿商学院CS教授Ethan Mollick给出的评价是,「令人印象深刻」!


实测中,Opus 4.8一次性就生成了在twigl中运行的、效果炫酷的着色器。


刚刚,Claude Opus 4.8来了!两个史上首次改写历史


刚刚,Claude Opus 4.8来了!两个史上首次改写历史


再来看一个,Opus 4.8和Opus 4.7并排测试。


刚刚,Claude Opus 4.8来了!两个史上首次改写历史


刚刚,Claude Opus 4.8来了!两个史上首次改写历史


上百个Agent并行干活


11天重写底层


强成这样,它该使多大劲,这次居然轮到用户说了算。


先说effort control(思考力度)。模型旁边,多了个从Low到Max的五档选择。


简单问题挂Low,秒回还省额度;遇上硬骨头直接拉满Max,让它往死里想。


刚刚,Claude Opus 4.8来了!两个史上首次改写历史


fast mode也跟着大降价,2.5倍速狂奔,价钱反倒砍到三分之一。


而五档之上,还埋着一个真正的狠角色,ultracode。


effort一旦顶到xhigh,它就自己掂量,这活儿值不值得叫上一整支agent大军。


这支大军,就是dynamic workflows,藏在Claude Code里的真正重武器。


它把AI干活的方式,从一个人改一道题,变成了开一座工厂。


刚刚,Claude Opus 4.8来了!两个史上首次改写历史


需要注意的是,dynamic workflows的token消耗远高于普通session,建议先从小范围任务试起。


刚刚,Claude Opus 4.8来了!两个史上首次改写历史


现在,Claude接到一个大活后不再自己埋头硬刚,而是当场写出一段调度脚本,把任务拆成几十上百个子任务,撒给一大群subagent并行去做。


做完还不算完,再派另一拨agent从不同角度反复盘问、互相挑刺,吵到答案收敛了,才汇总成一份结果交给你。


整个调度发生在对话之外,所以活儿再大,主线也不会乱。中途断了还能续上,不用从头再来。


举个例子,Bun的作者Jarred Sumner,想把这个比Node.js还快的JavaScript运行时,整个从Zig重写成内存更安全的Rust。


这种迁移,放在过去是一支团队按季度算的工程。


刚刚,Claude Opus 4.8来了!两个史上首次改写历史


不过,这次Sumner有了dynamic workflows。


一个workflow先把Zig代码里每个结构体字段对应的Rust生命周期挨个标好,下一个workflow把每个文件逐一翻成行为一致的Rust版本,几百个agent同时开工,每份文件还配两个审查员,再用一个修复循环驱动编译和测试,一路推到全绿。


结果是,约75万行Rust代码,99.8%的原有测试通过。从第一次提交到合并,只用了11天。


社区当场炸了锅。这场迁移产生了六千多次提交,几乎没有经过人类逐行审查。


估值万亿美金


Claude Mythos要来


能力夺回第一的同时,Anthropic的身价也头一回压过了OpenAI。


就在刚刚,Anthropic完成了650亿美元H轮融资,估值9650亿美元,首次超越OpenAI(8520亿美元)。


一夜之间,它成了全球估值最高的AI初创公司!


刚刚,Claude Opus 4.8来了!两个史上首次改写历史


刚刚,Claude Opus 4.8来了!两个史上首次改写历史


然而,站在IPO前夜,这两大巨头的ASI的巅峰对决才真正开始。


正如博客所预告的那样,Anthropic手中最大的王牌——Claude Mythos将在未来几周上线。


届时,这场属于AI巨头间的终极拉锯战,才算拉开帷幕。


参考资料:


https://x.com/claudeai/status/2060042702150930686 


https://www.anthropic.com/news/claude-opus-4-8 


 https://claude.com/blog/introducing-dynamic-workflows-in-claude-code



文章来自于微信公众号 "新智元",作者 "新智元"

1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
IOS下载
安卓下载
微信群