「开源Claude时刻」,智谱GLM5.2与Mythos被放在一起了

首页 AI资讯 AI技术研报 AI监管政策 AI产品测评 AI商业项目 arena全球大模型排行榜 AI产品热榜 AI 源力市场 AI新闻日报
下载 AITNT APP
🍎 iOS 下载 🤖 Android 下载

「开源Claude时刻」,智谱GLM5.2与Mythos被放在一起了
AI资讯 2026-06-29 15:54
+5859 阅读

这个周末,智谱没闲着。


多家外媒接连跟进报道,华尔街时报更是直言「中国重置了AI竞赛」


「开源Claude时刻」,智谱GLM5.2与Mythos被放在一起了


因为,智谱的GLM-5.2,让Claude Mythos在找安全漏洞这件事上,不再是独一无二的神话了!


代码安全公司Semgrep写了篇测评,标题直接叫「We have Mythos at Home」。


热议的核心只有一件事,GLM-5.2在找安全漏洞这件事上追平了Mythos


「开源Claude时刻」,智谱GLM5.2与Mythos被放在一起了


X上的讨论也跟着炸了。


Databricks研究员Yuchen Jin说,这是「开源领域的Claude时刻」,他们看到的需求增长让人震惊。


「开源Claude时刻」,智谱GLM5.2与Mythos被放在一起了


GLM找漏洞追平Mythos


Semgrep做这个测试,最初其实不是为了找最强的开源模型。


他们想弄清的是另一件事,AI找漏洞的成绩,到底有多少是模型本身的能力,又有多少是外面那层脚手架的功劳。


结果把他们自己吓到了。


GLM-5.2在这次测试里没有任何加持和引导,只有一个prompt和一堆代码裸跑,结果最终在IDOR漏洞检测上拿到39%的F1分


这个成绩不仅超过了同样裸跑的其他开源模型,连带着完整SDK加持、搭载Opus 4.8的Claude Code都打败了,后者只有32%。


而且GLM-5.2价格低廉,每找到一个漏洞的计算成本,只要0.17美元。


「开源Claude时刻」,智谱GLM5.2与Mythos被放在一起了


而且根据华尔街日报的文章显示,加了额外指令之后,GLM-5.2的漏洞查找能力可以进一步追平Mythos


「开源Claude时刻」,智谱GLM5.2与Mythos被放在一起了


这里插播解释一下IDOR是什么。


简单说,就是一个系统暴露了内部的用户ID或数据库键值,但没有验证请求方是否有权限访问它,改一下ID,就能拿到别人的数据。


听起来简单,但这类漏洞在安全圈出了名的难检测,因为它不像普通的危险函数调用那样有迹可循,它考验的是模型能不能发现一个「本该存在但缺失的校验」。


目前IDOR在HackerOne漏洞类型榜上排第四,是实战中最常被利用的漏洞之一。


值得一提的是,GLM-5.2和排名第二的开源模型之间的差距,比它和Claude Code之间的差距还要大16个百分点。


换句话说,这不是开源模型集体追上来了,就是智谱一骑绝尘,在这个任务上独自跨过了那道门槛。


当然,性价比也是这个故事的一部分。


GLM-5.2的输出token价格是Claude Opus 4.8的五分之一,GPT-5.5的七分之一。


在Kilo Code里拿它跑规划任务,能拿到9.0分的水平,Fable 5是9.1,二者几乎打平。


国产模型正在崛起


7AI的CEO Lior Div说,中国在持续缩小与美国的差距,且这个趋势不会停。


数据也在印证这个判断,Stanford 2026 AI Index显示,美中两国最强模型之间的综合能力差距已经收窄到2.7个百分点。


这次智谱追上的,偏偏是AI能力里最敏感、也最具战略价值的那个维度——网络安全。


而且这次追平,背后有一条持续加速的轨道在支撑。


智谱在过去四个月里发布了四个前沿级coding模型,GLM-5、5-Turbo、5.1、5.2,这个节奏和任何一家顶级实验室相比都不落下风。


智谱创始人唐杰在Mythos Preview发布后说过,AI找漏洞学的不只是搜索,而是顶级黑客的直觉和方法论,而且可以24小时不间断运转。


他的结论是,这本质上是一场替代黑客的革命。


另外智谱也不是孤例,就在GLM-5.2引发热议的同一周,另一家中国安全公司360,也宣布推出了自己的漏洞检测工具,同样声称能够比肩Mythos。


至于这个维度为什么特殊,还要从Mythos说起。


它曾花两天、约2万美元的算力,挖出一个藏在OpenBSD里长达27年、从未被人发现的漏洞。


Anthropic研究员Nicholas Carlini用一套后来被叫做「Carlini Loop」的提示词驱动Mythos扫代码,翻出数百个bug,其中Ghost平台的一个漏洞在几周后就被黑客在野利用了。


这套能力能守,也能攻,已经被现实验证过了。


安全圈有个词叫bugmageddon,说的是一个正在发生的现实——AI发现漏洞的速度,已经超过了人类打补丁的速度。


八年前,一个漏洞从被发现到被利用,平均需要847天。现在这个窗口已经缩短到一天以内。


也正是在这个背景下,曾领导Google安全团队的Niels Provos说出了那句判断——这种局面正把全球用户推向更便宜但同样强大的中国开源模型。


差距在缩小,使用天平也在同步倾斜,本质上是市场在用实际行动,对国产模型的AI Coding能力投下赞成票。


六月中旬,马斯克在X上说,智谱最快到明年初就能在benchmark上追上美国顶尖模型。


当时智谱创始人唐杰回了一句,「不用那么久」。


现在看来,至少在找安全漏洞这件事上,他说对了。


参考链接:

[1]https://semgrep.dev/blog/2026/we-have-mythos-at-home-glm-52-beats-claude-in-our-cyber-benchmarks/

[2]https://www.wsj.com/tech/ai/chinese-ai-anthropic-mythos-cybersecurity-574b02c2


文章来自于"量子位",作者 "克雷西"。

1
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0

添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案