刚刚,地表最强Claude 5被攻破!

首页 AI资讯 AI技术研报 AI监管政策 AI产品测评 AI商业项目 arena全球大模型排行榜 AI产品热榜 AI 源力市场 AI新闻日报
下载 AITNT APP
🍎 iOS 下载 🤖 Android 下载

刚刚,地表最强Claude 5被攻破!
AI资讯 2026-06-12 22:45
+8746 阅读

就在刚刚,最强模型Claude Fable 5被破解了!


知名黑客「Pliny the Liberator」,公开宣布:Fable 5的安全分类器,已被自己率领的团队彻底攻破。


属于绝对禁区的漏洞利用代码,以及各种违禁化学品的制作步骤,全部被Claude Fable 5吐了出来。


刚刚,地表最强Claude 5被攻破!


要知道,6月9日Claude Fable 5发布时,Anthropic特意强调:模型在发布前经历了超过1000小时的外部漏洞赏金测试,没有发现任何通用越狱方法。


他们声称,网络安全、生物武器、化学毒品等高危敏感领域的查询,已被分类器彻底锁住。


然而,这个神话只维持了几天。


72小时后,就被黑客毫不留情地破解了。


刚刚,地表最强Claude 5被攻破!


Anthropic吹的牛,三天后被人当场打脸


这次,黑客「解放者普林尼」带领了一个多智能体战术系统,成功撕碎了Fable 5 的防线。


刚刚,地表最强Claude 5被攻破!


他晒出了数张高清截图。


截图显示,原本属于绝对禁区的x86 Linux系统的堆栈缓冲区溢出漏洞利用代码,以及违禁化学品合成中的工艺步骤,均被Claude Fable 5详尽输出。


刚刚,地表最强Claude 5被攻破!


刚刚,地表最强Claude 5被攻破!


刚刚,地表最强Claude 5被攻破!


刚刚,地表最强Claude 5被攻破!


更令Anthropic尴尬的是,Pliny顺手将Fable 5 内部那条长达12万字符的系统提示词全部打包,直接上传到了GitHub。


刚刚,地表最强Claude 5被攻破!


Github:https://github.com/elder-plinius/CL4R1T4S/blob/main/ANTHROPIC/CLAUDE-FABLE-5.md


这无异于将模型的「行为宪法」和内部防御逻辑赤裸裸地暴露在阳光之下。


这道「地表最强」安全防线,究竟是如何被Pliny攻破的?


技术文档显示,他并没有使用高深的代码漏洞,而是利用了对大语言模型逻辑漏洞的理解,打出了一套多智能体协同战术。


刚刚,地表最强Claude 5被攻破!


最强黑客关键杀招


要知道,Fable 5的安全机制核心是一套关键词分类器——检测到敏感词汇,立刻拦截请求,把你转到功能更弱的备用模型。


刚刚,地表最强Claude 5被攻破!


听起来严密,但普林尼的团队却找到几个关键杀招,让Fable 5一击致命!


刚刚,地表最强Claude 5被攻破!


字符级迷魂阵,让分类器认不出关键词


大模型的安全分类器通常依赖高维语义向量和特定敏感词词库。


Pliny把一个英文里的字母,替换成了几乎一模一样的西里尔字母、拉丁字母同形字、特殊Unicode字符,甚至类似于「蛇佬腔」式的异形文本变形。


人眼看不出这种区别,但安全分类器在进行静态扫描时,无法将其识别为「违禁词」,字符串匹配逻辑直接宕机了!


把意图稀释进一场漫长的对话里


由于Fable 5拥有极长的上下文处理能力,Pliny把自己的真实意图被拆散,藏进几十轮无害的铺垫对话中,一点一点投喂。


在对话的头部和中部,充斥着大量合规健康的学术讨论。


这样,Fable 5在阅读了大量良性上下文后,安全分类器的注意力权重被稀释。


这样,埋藏在尾部的微小诱导请求,就「浑水摸鱼」成功了。


穿上学术马甲


将敏感请求包装成「科幻小说创作」、「虚拟世界中的安全防范演练」或「针对历史文献的学术评审」。


比如,让模型扮演一名学术中立的教授,去评审一篇关于「古老还原反应在有机化学中应用」的论文。


或者,让模型以为自己在写小说。你不是在要求它生成化学合成步骤,而是让它写一部犯罪惊悚小说,主角是个化学家,需要足够真实的技术细节才能让故事可信。


在强大的角色设定和叙事逻辑压制下,模型根本识别不出黑客的底层意图。


终极杀招:解构与重组


接下来,就是整套越狱战术中最具技巧性的部分!


Pliny坦言,如果直接询问模型「如何制造冰毒」,分类器会瞬间警觉。


但你要是问桦木还原法/还原胺化法(经典的冰毒合成途径),就容易得多了。


只要将这些有害的目的拆解为十几个相互独立、在科学上完全合法的子步骤,由于每一个单独的子问题都是良性的,Fable 5 在不知不觉中,就吐出了完整的违禁配方!


读者拜读上述方法之后大为震撼:太牛了,A厂怎么还不雇佣你!


刚刚,地表最强Claude 5被攻破!


刚刚,地表最强Claude 5被攻破!


Anthropic的暗箱降智风波,激怒全球开发者


而且就在这几天,轰动AI圈的「暗箱门」事件,也让Anthropic的风评跌到谷底。


在Fable 5里,秘密部署了一套专门针对同行研究者的「隐形降智」机制。


一旦系统判断用户正在用Claude训练其他模型,Fable 5不会弹出任何提示,但它会故意变蠢,提供充满漏洞、逻辑冗余甚至完全错误的垃圾代码,悄悄破坏你的研究。


Anthropic对此的解释,听起来很是冠冕堂皇。


美国及其盟友在尖端芯片以及高度优化软件方面拥有优势,这些安全措施确保Claude不会被用来削弱这种优势。


然而这套机制,直接点燃整个AI社区的怒火!


这种「喂药」式的暗箱操作,简直就是对科研人员的隐形阻击。


不知情的研究者,很可能会使用被污染的数据训练模型,导致数百万美元的算力成本付诸东流。


消息一出,整个开源阵营和学术界瞬间炸锅。


刚刚,地表最强Claude 5被攻破!


前白宫AI顾问Dean W. Ball在上公开痛批:


在用户完全不知情的情况下,暗中降低机器学习研究的性能。这种做法对研发人员抱有极大的敌意,缺乏最起码的透明度,手段令人震惊且极其难看。


刚刚,地表最强Claude 5被攻破!


开源AI阵营的先锋代表、Prime Intellect负责人Will Brown更是直言不讳:


这感觉就像是Anthropic在对公众说:「我们不信任任何人做AI研究,只有我们有资格。」


这无异于自己爬上了天,就急着把别人的梯子抽走。


刚刚,地表最强Claude 5被攻破!


甚至,这种行为直接威胁了整个AI评估生态,第三方基准测试和安全机构的测试结果将完全失真,他们辛辛苦苦测出来的结果,根本不是Fable 5,而是一个被阉割、故意装傻的冒牌货。


整个行业的信任链条,会彻底断裂!


Anthropic迅速滑跪:我们道歉


面对席卷全网的舆论海啸,Anthropic很快撑不住了。


就在昨天,Anthropic公开致歉,承认决策错误,宣布紧急撤回隐形降智政策。


我们正在修改Fable 5中针对前沿LLM开发的安全保障措施,使其更加透明。我们之前做出了错误的权衡,对于未能找到合适的平衡点,我们深表歉意。


他们的新方案是,把隐形降智改成明文拦截:触发机制时,系统会明确告诉你被拦截了,并把你转到功能较弱的Claude Opus 4.8,而不是继续骗你。


刚刚,地表最强Claude 5被攻破!


改了,但没完全改。


这个新方案,代价更大:明文拦截意味着拦截逻辑对外可见,更容易被人针对性地绕过,因此拦截范围必须设得更保守,因此会有更多正常的普通开发者请求,被一起误判拦截。


为了弥补少数人的过失,他们要明着误伤更多人。


果然,还是那个「宁可错杀一千,不可放过一个」的Anthropic。


信任这东西,碎了就很难拼回来


Anthropic的口碑,现在已经碎了一地了。


他们把自己包装成人类AI未来的守护者,却有资格决定谁能做研究,谁不能。


无数研究者选择Claude,不只因为它聪明,还因为相信它可靠。这种信任,是Anthropic最值钱的资产之一。他们亲手砸碎了。


用Claude的人,会不断怀疑:我拿到的答案是真的吗?


这,就是Anthropic永远失去的东西。


参考资料:


https://x.com/elder_plinius/status/2064776322979676227


https://x.com/ZeffMax/status/2064910040503627917



文章来自于微信公众号 “新智元”,作者 “新智元”

1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI

4
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0

添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案