「开源Claude时刻」，智谱GLM5.2与Mythos被放在一起了

AI资讯 2026-06-29 15:54

+5859 阅读

这个周末，智谱没闲着。

多家外媒接连跟进报道，华尔街时报更是直言「中国重置了AI竞赛」。

因为，智谱的GLM-5.2，让Claude Mythos在找安全漏洞这件事上，不再是独一无二的神话了！

代码安全公司Semgrep写了篇测评，标题直接叫「We have Mythos at Home」。

热议的核心只有一件事，GLM-5.2在找安全漏洞这件事上追平了Mythos。

「开源Claude时刻」，智谱GLM5.2与Mythos被放在一起了

X上的讨论也跟着炸了。

Databricks研究员Yuchen Jin说，这是「开源领域的Claude时刻」，他们看到的需求增长让人震惊。

「开源Claude时刻」，智谱GLM5.2与Mythos被放在一起了

GLM找漏洞追平Mythos

Semgrep做这个测试，最初其实不是为了找最强的开源模型。

他们想弄清的是另一件事，AI找漏洞的成绩，到底有多少是模型本身的能力，又有多少是外面那层脚手架的功劳。

结果把他们自己吓到了。

GLM-5.2在这次测试里没有任何加持和引导，只有一个prompt和一堆代码裸跑，结果最终在IDOR漏洞检测上拿到39%的F1分。

这个成绩不仅超过了同样裸跑的其他开源模型，连带着完整SDK加持、搭载Opus 4.8的Claude Code都打败了，后者只有32%。

而且GLM-5.2价格低廉，每找到一个漏洞的计算成本，只要0.17美元。

「开源Claude时刻」，智谱GLM5.2与Mythos被放在一起了

而且根据华尔街日报的文章显示，加了额外指令之后，GLM-5.2的漏洞查找能力可以进一步追平Mythos。

「开源Claude时刻」，智谱GLM5.2与Mythos被放在一起了

这里插播解释一下IDOR是什么。

简单说，就是一个系统暴露了内部的用户ID或数据库键值，但没有验证请求方是否有权限访问它，改一下ID，就能拿到别人的数据。

听起来简单，但这类漏洞在安全圈出了名的难检测，因为它不像普通的危险函数调用那样有迹可循，它考验的是模型能不能发现一个「本该存在但缺失的校验」。

目前IDOR在HackerOne漏洞类型榜上排第四，是实战中最常被利用的漏洞之一。

值得一提的是，GLM-5.2和排名第二的开源模型之间的差距，比它和Claude Code之间的差距还要大16个百分点。

换句话说，这不是开源模型集体追上来了，就是智谱一骑绝尘，在这个任务上独自跨过了那道门槛。

当然，性价比也是这个故事的一部分。

GLM-5.2的输出token价格是Claude Opus 4.8的五分之一，GPT-5.5的七分之一。

在Kilo Code里拿它跑规划任务，能拿到9.0分的水平，Fable 5是9.1，二者几乎打平。

国产模型正在崛起

7AI的CEO Lior Div说，中国在持续缩小与美国的差距，且这个趋势不会停。

数据也在印证这个判断，Stanford 2026 AI Index显示，美中两国最强模型之间的综合能力差距已经收窄到2.7个百分点。

这次智谱追上的，偏偏是AI能力里最敏感、也最具战略价值的那个维度——网络安全。

而且这次追平，背后有一条持续加速的轨道在支撑。

智谱在过去四个月里发布了四个前沿级coding模型，GLM-5、5-Turbo、5.1、5.2，这个节奏和任何一家顶级实验室相比都不落下风。

智谱创始人唐杰在Mythos Preview发布后说过，AI找漏洞学的不只是搜索，而是顶级黑客的直觉和方法论，而且可以24小时不间断运转。

他的结论是，这本质上是一场替代黑客的革命。

另外智谱也不是孤例，就在GLM-5.2引发热议的同一周，另一家中国安全公司360，也宣布推出了自己的漏洞检测工具，同样声称能够比肩Mythos。

至于这个维度为什么特殊，还要从Mythos说起。

它曾花两天、约2万美元的算力，挖出一个藏在OpenBSD里长达27年、从未被人发现的漏洞。

Anthropic研究员Nicholas Carlini用一套后来被叫做「Carlini Loop」的提示词驱动Mythos扫代码，翻出数百个bug，其中Ghost平台的一个漏洞在几周后就被黑客在野利用了。

这套能力能守，也能攻，已经被现实验证过了。

安全圈有个词叫bugmageddon，说的是一个正在发生的现实——AI发现漏洞的速度，已经超过了人类打补丁的速度。

八年前，一个漏洞从被发现到被利用，平均需要847天。现在这个窗口已经缩短到一天以内。

也正是在这个背景下，曾领导Google安全团队的Niels Provos说出了那句判断——这种局面正把全球用户推向更便宜但同样强大的中国开源模型。

差距在缩小，使用天平也在同步倾斜，本质上是市场在用实际行动，对国产模型的AI Coding能力投下赞成票。

六月中旬，马斯克在X上说，智谱最快到明年初就能在benchmark上追上美国顶尖模型。

当时智谱创始人唐杰回了一句，「不用那么久」。

现在看来，至少在找安全漏洞这件事上，他说对了。

参考链接：

[1]https://semgrep.dev/blog/2026/we-have-mythos-at-home-glm-52-beats-claude-in-our-cyber-benchmarks/

[2]https://www.wsj.com/tech/ai/chinese-ai-anthropic-mythos-cybersecurity-574b02c2

文章来自于"量子位"，作者 "克雷西"。

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。

项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0