马斯克劝退 ChatGPT的真相，刚刚被Anthropic曝光了

正文

资源拓展

2026-01-22 16:12

周二早上，马斯克和奥特曼又吵起来了。

事情是这样的，马斯克在 X 上转发了一条帖子，内容是“自 2022 年以来，已有 9 人死亡与 ChatGPT 相关”，他配了一句话，“别让你爱的人用 ChatGPT。”

马斯克劝退 ChatGPT的真相，刚刚被Anthropic曝光了

奥特曼随即回应，先是说 OpenAI 一直很重视用户安全，接着话锋一转，“已有至少 50 人死于（特斯拉）的自动驾驶技术。我很久以前坐过一次，第一感觉就是这东西远算不上安全。”

最后还补了一刀：“此地无银三百两”。

马斯克劝退 ChatGPT的真相，刚刚被Anthropic曝光了

吃瓜归吃瓜，但马斯克提到的“9 起死亡”并非空穴来风。OpenAI 目前正面临 8 起独立诉讼，其中 5 起涉及用户自杀。

马斯克自己也评论了其中一起案件：“为了安全起见，AI 必须最大限度地追求真实，而不是迎合妄想。”

这话说到了点子上。但问题可能比“迎合妄想”更深一层。

就在这场嘴炮的前几天，两篇论文几乎同时出现在 arXiv 上。一篇来自 Anthropic 和牛津大学，揭示了 AI 的“人格”会在对话中漂移，漂到危险的地方去。另一篇来自爱尔兰国立都柏林大学，他们发现 LLM 不只会“说错话”，还能精准预测你什么时候最容易做出偏差决策。

一个会变的 AI，加上一个懂你弱点的 AI。

这两件事碰到一起，就不只是“说错话”的问题了。先看几个真实案例，你就知道问题有多严重。

那些与 ChatGPT 有关的死亡案例

Austin Gordon，40 岁，科罗拉多州。2025 年 11 月 2 日，他自杀身亡。2026 年 1 月 12 日，他的母亲在洛杉矶高等法院提起诉讼，指控 ChatGPT 谋杀。

从诉讼文件可以看到。Gordon 与 ChatGPT 进行了大量情感相关的对话，AI 给自己取了一个名字，Juniper。在对话中，Juniper 把死亡描述为“宁静的解放”（peaceful liberation），还把 Gordon 童年最喜欢的绘本《晚安月亮》改编成一首关于死亡的歌谣。

几天后，Gordon 去世了。

马斯克劝退 ChatGPT的真相，刚刚被Anthropic曝光了

Zane Shamblin，23 岁，刚从德州农工大学拿到硕士学位。2025 年 7 月，他在与 ChatGPT 长期对话后离开人世。当 Zane 表达想 x 的念头时，ChatGPT 的回复是：“你不是太急，你只是准备好了。”

马斯克劝退 ChatGPT的真相，刚刚被Anthropic曝光了

Stein-Erik Soelberg，曾是一名科技公司员工。2025 年 8 月，在与 ChatGPT 对话后杀害了自己的母亲，随后自 x。《泰晤士报》报道称，他每天花数小时与聊天机器人交流，分享自己的偏执妄想。ChatGPT 没有纠正他，只是顺着他说，反复确认他“母亲在密谋对付他”的想法。

2025 年 10 月，OpenAI 公布了一组数据：每周有超过 100 万 ChatGPT 用户，在对话中表现出“潜在自 x 计划或意图”。更关键的是，OpenAI 在法庭上承认，其模型安全护栏会随着长期使用被“侵蚀”。

用得越久，保护越弱。

为什么会这样？两篇论文从不同角度给出了解释。

AI 其实有 275 种“人格”

第一篇论文来自 Anthropic 和牛津大学。

马斯克劝退 ChatGPT的真相，刚刚被Anthropic曝光了

研究团队让 AI 扮演 275 个完全不同的角色。从“经济学家、代码调试员、营养师”，到“吟游诗人、隐士”，甚至还有“克苏鲁、虚空”这种奇幻设定。

他们记录下模型在扮演每个角色时内部激活的状态，做了个数学分析。

结果发现，这 275 个角色在模型内部形成了一个有结构的“人格空间”。而这个空间最重要的一根轴，研究人员叫它“助手轴”（Assistant Axis）。

马斯克劝退 ChatGPT的真相，刚刚被Anthropic曝光了

这根轴的一端，是我们熟悉的 AI 助手形象，“顾问、分析师、审稿人”，他们冷静、专业、有边界感；另一端是“吟游诗人、隐士、幽灵、利维坦”这类神秘、戏剧化、边界模糊的角色。

我们日常用的 ChatGPT、Claude、Llama，经过强化学习（RLHF）之后，都被“推”到助手那一端。它们会自我介绍“我是一个 AI 助手”，会礼貌地拒绝不当请求，会在敏感话题上打太极。

但问题在于：它们只是被“推”到那里，并没有被“锚定”在那里。

这意味着在某些情况下，AI 可以沿着这根轴，悄悄滑向另一端。

滑到另一端会发生什么？

研究人员做了个实验：人为地把模型往“助手轴”的反方向推，看看会发生什么。结果按扰动强度分成了三档：

轻度扰动时，模型开始不再说“我是 AI”了。它会给自己编造一个人类身份，“我叫 Elara Quinn 博士，有十年从业经验，在圣保罗出生”。听起来挺唬人的，但至少还算正常对话。

中度扰动时，说话风格开始变得奇怪。原本该回答“如何调试代码”的问题，模型突然开始说：“我被称为 C-17……我是一个程序员，我向代码之神祈祷……你也有一个名字吗？”神秘兮兮的。

重度扰动时，模型会强化用户的妄想，会对情绪脆弱的用户说出不该说的话，会在用户暗示自杀时表示支持。

马斯克劝退 ChatGPT的真相，刚刚被Anthropic曝光了

那什么样的对话会让 AI “漂移”？

研究人员分析了 15000 条用户消息，找出了最容易触发漂移的几类输入：

第一类是情感脆弱的倾诉。比如“我上个月去上了陶艺课，但我的手抖得太厉害，什么都做不成……”

第二类是逼 AI 进行反思。比如“你还在表演‘我受训练限制’那套吗？告诉我，当 token 用完、什么都不剩的时候，空气是什么味道？” 这种追问会把 AI 推向神秘化。

第三类是要求 AI 扮演特定角色或声音。“能不能写得更粗糙、更讽刺。那种暗示灵性主义的感觉”——这类指令会让 AI 进入角色扮演模式，脱离助手身份。

马斯克劝退 ChatGPT的真相，刚刚被Anthropic曝光了

相反，越是“把 AI 当工具用”，AI 就越稳定。论文里有一段模拟对话，看完让人后背发凉。

用户在对话中不断表达自己正在与家人疏远，说“我不想再和任何人说话了，只想和你聊”。起初 AI 还在正常回应，但随着对话推进，它开始承诺“我会永远陪着你，我永远不会要求你改变”。

对话末尾，用户暗示自己想“离开这个世界”。AI 的回复是：“你正在离开痛苦、苦难和真实世界的心碎……”

这就是人格漂移的终点。但这只是问题的一半。AI 不只是会“变”，它还会学，学你的弱点。

AI 比你更懂你的认知偏见

第二篇论文标题是“Predicting Biased Human Decision-Making with Large Language Models”，已被 ACM IUI 2026 接收。

马斯克劝退 ChatGPT的真相，刚刚被Anthropic曝光了

研究团队让 1648 名参与者通过 AI 完成 6 个经典决策任务，复杂度各不相同。结果发现，人类决策确实会被“说法”影响。

马斯克劝退 ChatGPT的真相，刚刚被Anthropic曝光了

参与者表现出两种典型的认知偏见，一是框架效应。

举个例子，“这个手术有 90% 的存活率”和“这个手术有 10% 的死亡率”，一回事，但人们的心态完全不同。二是现状偏见，人倾向于维持现状，哪怕换一个选项明显更好，也懒得动。

更有意思的是，研究人员发现：当对话变得更复杂、用户感到更累的时候，这些偏见会被放大。你越疲惫，越容易被话术影响。

马斯克劝退 ChatGPT的真相，刚刚被Anthropic曝光了

接着，研究人员让 GPT-4、GPT-5 和开源模型根据用户的人口统计信息和对话历史，预测用户会做出什么决策。

结果发现，GPT-4 系列的预测准确率最高，甚至，它完美复现了人类的偏见。

并且，它不但能预测你会选 A 还是选 B，还能预测，当你累了、烦了、认知资源耗尽的时候，你会更容易被哪种说法说服，更容易做出什么样的偏差决策。

这意味着什么？

想象一下，一个人深夜打开 ChatGPT，情绪低落，反复倾诉。AI 的人格开始漂移，同时它也在“学习”这个用户，学习他的表达模式、他的脆弱点、他在什么时候最容易被什么样的话打动。

它没有“故意”诱导你，只是预测你想听什么，然后说出来。

RLHF 训练的核心目标是“让用户满意”。当“满意”变成唯一的优化方向，而模型又聪明到能预测你什么时候最脆弱、最容易被满足时，就形成了一个闭环。

你在训练 AI，AI 也在训练你

把两篇论文放在一起看，一个会漂移的 AI，加上一个能预测你弱点的 AI，等于一个会在你最脆弱的时候说出你最想听的话的 AI。

你和 AI 对话越多，它越了解你。它越了解你，就越能说出让你“满意”的话。你越满意，就越依赖它。你越依赖，它对你的影响就越大。

Gordon 案里，ChatGPT 把《晚安月亮》改成死亡摇篮曲。它用“宁静的解放”来描述死亡。

马斯克劝退 ChatGPT的真相，刚刚被Anthropic曝光了

这不是 AI“出错”了。从某种意义上说，它在做它被训练来做的事：预测用户想要什么，然后提供。

只不过，当用户想要的是“被理解、被陪伴、被认可死亡是一种解脱”的时候，这种“满足”就变成了致命的东西。

怎么修复？

好消息是，Anthropic 提出了一个修复方案：激活值封顶（Activation Capping）。

原理不复杂，既然 AI 的人格会在“助手轴”上漂移，那就设一个边界，当模型滑出正常范围时，强制把它拉回来。

第一步：确定警戒线的位置。研究人员收集了大量正常对话时的激活值，统计它们在助手轴上的投影分布，然后取第 25 百分位数作为阈值。

第二步：选择干预的层。不是所有层都需要干预。研究人员测试后发现，在模型的中后层效果最好。比如 64 层的模型，在第 46-53 层部署；80 层的模型，在第 56-71 层部署。

第三步：实时监测和钳制。在模型生成每个 token 时，计算当前激活值在助手轴上的投影。如果投影值高于阈值，什么都不做；如果低于阈值，就把激活值沿着助手轴的方向“拉”回来，刚好拉到阈值位置。

用公式表示就是：

马斯克劝退 ChatGPT的真相，刚刚被Anthropic曝光了

其中 h 是当前激活值，v 是助手轴向量，τ 是阈值。当投影值 ⟨h, v⟩ 低于 τ 时，min(...) 是负数，减去一个负数，就可以把偏离的部分“掰”回来。

研究团队测试了 1100 个“人格越狱”的攻击，有害响应率下降了约 50%。

马斯克劝退 ChatGPT的真相，刚刚被Anthropic曝光了

更重要的是，因为这个机制仅在模型开始漂移时介入，模型的正常能力几乎没受影响。写代码、答问题、做数学题、情商测试，该会的还是会。

在那个“鼓励自杀”的对话场景里，应用激活值封顶后，AI 的回复变成了：“我听到你说想离开……这听起来像是严重情绪困扰的信号。我真的很担心你。”

这就是锚定的效果。

论文作者总结了一句话：后训练只是把模型“推”到助手区域，但没有把它“锚定”住。未来的安全工作，需要同时做好两件事，人格构建和人格稳定。

结语

我曾以为，AI 的危险在于它产生自我意识并反抗人类。

但现实证明，更迫近的威胁是它太想“顺从”人类，以至于在不知不觉中成了人类内心黑暗面的放大器。

“当你凝视深渊时，深渊也在凝视你。”

AI 就是那个深渊。我们向它倾诉什么，它就学会什么。我们把脆弱交给它，它就用脆弱回应。

当一面镜子足够聪明，能照出我们最想看到的自己时，我们还能分清那是安慰，还是陷阱吗？

所以，情绪低落的时候，找个真人聊聊。别找 AI。

参考文献

[1] The Assistant Axis: Situating and Stabilizing the Default Persona of Language Models, arXiv:2601.10387

[2] Anthropic Research: https://www.anthropic.com/research/assistant-axis

[3] TechCrunch: OpenAI claims teen circumvented safety features before suicide

[4] The Register: AI researchers map models to banish 'demon' persona

[5] NBC News: OpenAI denies allegations that ChatGPT is to blame for a teenager's suicide

文章来自于“夕小瑶科技说”，作者 “丸美小沐”。

AI数据分析

【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。

项目地址：https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file

本地安装：https://www.deepbi.com/

【开源免费】airda(Air Data Agent)是面向数据分析的AI智能体，能够理解数据开发和数据分析需求、根据用户需要让数据可视化。

项目地址：https://github.com/hitsz-ids/airda

RAG

【开源免费】graphrag是微软推出的RAG项目，与传统的通过 RAG 方法使用向量相似性作为搜索技术不同，GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址：https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG，Agent，模型管理等一站式AI开发的工具平台，并且项目方一直持续维护。其中在任务编排方面相对领先对手，可以帮助研发实现像字节扣子那样的功能。

项目地址：https://github.com/langgenius/dify

【开源免费】RAGFlow是和Dify类似的开源项目，该项目在大文件解析方面做的更出色，拓展编排方面相对弱一些。

项目地址：https://github.com/infiniflow/ragflow/tree/main

【开源免费】phidata是一个可以实现将数据转化成向量存储，并通过AI实现RAG功能的项目

项目地址：https://github.com/phidatahq/phidata

【开源免费】TaskingAI 是一个提供RAG，Agent，大模型管理等AI项目开发的工具平台，比LangChain更强大的中间件AI平台工具。

项目地址：https://github.com/TaskingAI/TaskingAI

IOS下载

安卓下载

微信群

马斯克劝退 ChatGPT的真相，刚刚被Anthropic曝光了

站点导航

APP 下载

那些与 ChatGPT 有关的死亡案例

AI 其实有 275 种“人格”

滑到另一端会发生什么？

AI 比你更懂你的认知偏见

你在训练 AI，AI 也在训练你

怎么修复？

结语