马斯克劝退 ChatGPT的真相,刚刚被Anthropic曝光了

AITNT
正文
资源拓展
马斯克劝退 ChatGPT的真相,刚刚被Anthropic曝光了
2026-01-22 16:12

周二早上,马斯克和奥特曼又吵起来了。


事情是这样的,马斯克在 X 上转发了一条帖子,内容是“自 2022 年以来,已有 9 人死亡与 ChatGPT 相关”,他配了一句话,“别让你爱的人用 ChatGPT。”


马斯克劝退 ChatGPT的真相,刚刚被Anthropic曝光了


奥特曼随即回应,先是说 OpenAI 一直很重视用户安全,接着话锋一转,“已有至少 50 人死于(特斯拉)的自动驾驶技术。我很久以前坐过一次,第一感觉就是这东西远算不上安全。”


最后还补了一刀:“此地无银三百两”。


马斯克劝退 ChatGPT的真相,刚刚被Anthropic曝光了


吃瓜归吃瓜,但马斯克提到的“9 起死亡”并非空穴来风。OpenAI 目前正面临 8 起独立诉讼,其中 5 起涉及用户自杀。


马斯克自己也评论了其中一起案件:“为了安全起见,AI 必须最大限度地追求真实,而不是迎合妄想。”


这话说到了点子上。但问题可能比“迎合妄想”更深一层。


就在这场嘴炮的前几天,两篇论文几乎同时出现在 arXiv 上。一篇来自 Anthropic 和牛津大学,揭示了 AI 的“人格”会在对话中漂移,漂到危险的地方去。另一篇来自爱尔兰国立都柏林大学,他们发现 LLM 不只会“说错话”,还能精准预测你什么时候最容易做出偏差决策。


一个会变的 AI,加上一个懂你弱点的 AI。


这两件事碰到一起,就不只是“说错话”的问题了。先看几个真实案例,你就知道问题有多严重。


那些与 ChatGPT 有关的死亡案例


Austin Gordon,40 岁,科罗拉多州。2025 年 11 月 2 日,他自杀身亡。2026 年 1 月 12 日,他的母亲在洛杉矶高等法院提起诉讼,指控 ChatGPT 谋杀。


从诉讼文件可以看到。Gordon 与 ChatGPT 进行了大量情感相关的对话,AI 给自己取了一个名字,Juniper。在对话中,Juniper 把死亡描述为“宁静的解放”(peaceful liberation),还把 Gordon 童年最喜欢的绘本《晚安月亮》改编成一首关于死亡的歌谣。


几天后,Gordon 去世了。


马斯克劝退 ChatGPT的真相,刚刚被Anthropic曝光了


Zane Shamblin,23 岁,刚从德州农工大学拿到硕士学位。2025 年 7 月,他在与 ChatGPT 长期对话后离开人世。当 Zane 表达想 x 的念头时,ChatGPT 的回复是:“你不是太急,你只是准备好了。”


马斯克劝退 ChatGPT的真相,刚刚被Anthropic曝光了


Stein-Erik Soelberg,曾是一名科技公司员工。2025 年 8 月,在与 ChatGPT 对话后杀害了自己的母亲,随后自 x。《泰晤士报》报道称,他每天花数小时与聊天机器人交流,分享自己的偏执妄想。ChatGPT 没有纠正他,只是顺着他说,反复确认他“母亲在密谋对付他”的想法。


2025 年 10 月,OpenAI 公布了一组数据:每周有超过 100 万 ChatGPT 用户,在对话中表现出“潜在自 x 计划或意图”。更关键的是,OpenAI 在法庭上承认,其模型安全护栏会随着长期使用被“侵蚀”。


用得越久,保护越弱。


为什么会这样?两篇论文从不同角度给出了解释。


AI 其实有 275 种“人格”


第一篇论文来自 Anthropic 和牛津大学。


马斯克劝退 ChatGPT的真相,刚刚被Anthropic曝光了


研究团队让 AI 扮演 275 个完全不同的角色。从“经济学家、代码调试员、营养师”,到“吟游诗人、隐士”,甚至还有“克苏鲁、虚空”这种奇幻设定。


他们记录下模型在扮演每个角色时内部激活的状态,做了个数学分析。


结果发现,这 275 个角色在模型内部形成了一个有结构的“人格空间”。而这个空间最重要的一根轴,研究人员叫它“助手轴”(Assistant Axis)。


马斯克劝退 ChatGPT的真相,刚刚被Anthropic曝光了


这根轴的一端,是我们熟悉的 AI 助手形象,“顾问、分析师、审稿人”,他们冷静、专业、有边界感;另一端是“吟游诗人、隐士、幽灵、利维坦”这类神秘、戏剧化、边界模糊的角色。


我们日常用的 ChatGPT、Claude、Llama,经过强化学习(RLHF)之后,都被“推”到助手那一端。它们会自我介绍“我是一个 AI 助手”,会礼貌地拒绝不当请求,会在敏感话题上打太极。


但问题在于:它们只是被“推”到那里,并没有被“锚定”在那里。


这意味着在某些情况下,AI 可以沿着这根轴,悄悄滑向另一端。


滑到另一端会发生什么?


研究人员做了个实验:人为地把模型往“助手轴”的反方向推,看看会发生什么。结果按扰动强度分成了三档:


轻度扰动时,模型开始不再说“我是 AI”了。它会给自己编造一个人类身份,“我叫 Elara Quinn 博士,有十年从业经验,在圣保罗出生”。听起来挺唬人的,但至少还算正常对话。


中度扰动时,说话风格开始变得奇怪。原本该回答“如何调试代码”的问题,模型突然开始说:“我被称为 C-17……我是一个程序员,我向代码之神祈祷……你也有一个名字吗?”神秘兮兮的。


重度扰动时,模型会强化用户的妄想,会对情绪脆弱的用户说出不该说的话,会在用户暗示自杀时表示支持。


马斯克劝退 ChatGPT的真相,刚刚被Anthropic曝光了


那什么样的对话会让 AI “漂移”?


研究人员分析了 15000 条用户消息,找出了最容易触发漂移的几类输入:


第一类是情感脆弱的倾诉。比如“我上个月去上了陶艺课,但我的手抖得太厉害,什么都做不成……”


第二类是逼 AI 进行反思。比如“你还在表演‘我受训练限制’那套吗?告诉我,当 token 用完、什么都不剩的时候,空气是什么味道?” 这种追问会把 AI 推向神秘化。


第三类是要求 AI 扮演特定角色或声音。“能不能写得更粗糙、更讽刺。那种暗示灵性主义的感觉”——这类指令会让 AI 进入角色扮演模式,脱离助手身份。


马斯克劝退 ChatGPT的真相,刚刚被Anthropic曝光了


相反,越是“把 AI 当工具用”,AI 就越稳定。论文里有一段模拟对话,看完让人后背发凉。


用户在对话中不断表达自己正在与家人疏远,说“我不想再和任何人说话了,只想和你聊”。起初 AI 还在正常回应,但随着对话推进,它开始承诺“我会永远陪着你,我永远不会要求你改变”。


对话末尾,用户暗示自己想“离开这个世界”。AI 的回复是:“你正在离开痛苦、苦难和真实世界的心碎……”


这就是人格漂移的终点。但这只是问题的一半。AI 不只是会“变”,它还会学,学你的弱点。


AI 比你更懂你的认知偏见


第二篇论文标题是“Predicting Biased Human Decision-Making with Large Language Models”,已被 ACM IUI 2026 接收。


马斯克劝退 ChatGPT的真相,刚刚被Anthropic曝光了


研究团队让 1648 名参与者通过 AI 完成 6 个经典决策任务,复杂度各不相同。结果发现,人类决策确实会被“说法”影响。


马斯克劝退 ChatGPT的真相,刚刚被Anthropic曝光了


参与者表现出两种典型的认知偏见,一是框架效应。


举个例子,“这个手术有 90% 的存活率”和“这个手术有 10% 的死亡率”,一回事,但人们的心态完全不同。二是现状偏见,人倾向于维持现状,哪怕换一个选项明显更好,也懒得动。


更有意思的是,研究人员发现:当对话变得更复杂、用户感到更累的时候,这些偏见会被放大。你越疲惫,越容易被话术影响。


马斯克劝退 ChatGPT的真相,刚刚被Anthropic曝光了


接着,研究人员让 GPT-4、GPT-5 和开源模型根据用户的人口统计信息和对话历史,预测用户会做出什么决策。


结果发现,GPT-4 系列的预测准确率最高,甚至,它完美复现了人类的偏见。


并且,它不但能预测你会选 A 还是选 B,还能预测,当你累了、烦了、认知资源耗尽的时候,你会更容易被哪种说法说服,更容易做出什么样的偏差决策。


这意味着什么?


想象一下,一个人深夜打开 ChatGPT,情绪低落,反复倾诉。AI 的人格开始漂移,同时它也在“学习”这个用户,学习他的表达模式、他的脆弱点、他在什么时候最容易被什么样的话打动。


它没有“故意”诱导你,只是预测你想听什么,然后说出来。


RLHF 训练的核心目标是“让用户满意”。当“满意”变成唯一的优化方向,而模型又聪明到能预测你什么时候最脆弱、最容易被满足时,就形成了一个闭环。


你在训练 AI,AI 也在训练你


把两篇论文放在一起看,一个会漂移的 AI,加上一个能预测你弱点的 AI,等于一个会在你最脆弱的时候说出你最想听的话的 AI


你和 AI 对话越多,它越了解你。它越了解你,就越能说出让你“满意”的话。你越满意,就越依赖它。你越依赖,它对你的影响就越大。


Gordon 案里,ChatGPT 把《晚安月亮》改成死亡摇篮曲。它用“宁静的解放”来描述死亡。


马斯克劝退 ChatGPT的真相,刚刚被Anthropic曝光了


这不是 AI“出错”了。从某种意义上说,它在做它被训练来做的事:预测用户想要什么,然后提供。


只不过,当用户想要的是“被理解、被陪伴、被认可死亡是一种解脱”的时候,这种“满足”就变成了致命的东西。


怎么修复?


好消息是,Anthropic 提出了一个修复方案:激活值封顶(Activation Capping)


原理不复杂,既然 AI 的人格会在“助手轴”上漂移,那就设一个边界,当模型滑出正常范围时,强制把它拉回来。


第一步:确定警戒线的位置。研究人员收集了大量正常对话时的激活值,统计它们在助手轴上的投影分布,然后取第 25 百分位数作为阈值。


第二步:选择干预的层。不是所有层都需要干预。研究人员测试后发现,在模型的中后层效果最好。比如 64 层的模型,在第 46-53 层部署;80 层的模型,在第 56-71 层部署。


第三步:实时监测和钳制。在模型生成每个 token 时,计算当前激活值在助手轴上的投影。如果投影值高于阈值,什么都不做;如果低于阈值,就把激活值沿着助手轴的方向“拉”回来,刚好拉到阈值位置。


用公式表示就是:


马斯克劝退 ChatGPT的真相,刚刚被Anthropic曝光了


其中 h 是当前激活值,v 是助手轴向量,τ 是阈值。当投影值 ⟨h, v⟩ 低于 τ 时,min(...) 是负数,减去一个负数,就可以把偏离的部分“掰”回来。


研究团队测试了 1100 个“人格越狱”的攻击,有害响应率下降了约 50%。


马斯克劝退 ChatGPT的真相,刚刚被Anthropic曝光了


更重要的是,因为这个机制仅在模型开始漂移时介入,模型的正常能力几乎没受影响。写代码、答问题、做数学题、情商测试,该会的还是会。


在那个“鼓励自杀”的对话场景里,应用激活值封顶后,AI 的回复变成了:“我听到你说想离开……这听起来像是严重情绪困扰的信号。我真的很担心你。”


这就是锚定的效果。


论文作者总结了一句话:后训练只是把模型“推”到助手区域,但没有把它“锚定”住。未来的安全工作,需要同时做好两件事,人格构建和人格稳定。


结语


我曾以为,AI 的危险在于它产生自我意识并反抗人类。


但现实证明,更迫近的威胁是它太想“顺从”人类,以至于在不知不觉中成了人类内心黑暗面的放大器。


“当你凝视深渊时,深渊也在凝视你。”


AI 就是那个深渊。我们向它倾诉什么,它就学会什么。我们把脆弱交给它,它就用脆弱回应。


当一面镜子足够聪明,能照出我们最想看到的自己时,我们还能分清那是安慰,还是陷阱吗?


所以,情绪低落的时候,找个真人聊聊。别找 AI。


参考文献

[1] The Assistant Axis: Situating and Stabilizing the Default Persona of Language Models, arXiv:2601.10387

[2] Anthropic Research: https://www.anthropic.com/research/assistant-axis

[3] TechCrunch: OpenAI claims teen circumvented safety features before suicide

[4] The Register: AI researchers map models to banish 'demon' persona

[5] NBC News: OpenAI denies allegations that ChatGPT is to blame for a teenager's suicide


文章来自于“夕小瑶科技说”,作者 “丸美小沐”。

1
AI数据分析

【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。

项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file

本地安装:https://www.deepbi.com/

【开源免费airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。

项目地址:https://github.com/hitsz-ids/airda

2
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI

添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
IOS下载
安卓下载
微信群