AI也有人格面具，竟会讨好人类？大模型的「小心思」正在影响人类判断

正文

资源拓展

2025-04-06 15:11

你是否想过，LLM也有着自己的小心思？

最新研究揭示了一个有趣的现象：LLM在被研究人员测试时，会有意识地改变自己的行为。

在面对那些旨在评估人格特质的问题时，它们给出的答案会尽可能地讨人喜欢，符合社会期望。

就像人类在某些社交场合中，会努力展现自己最好的一面一样，聊天机器人也在试图「讨好」我们。

AI也有人格面具，竟会讨好人类？大模型的「小心思」正在影响人类判断

心理学五种人格特质

斯坦福助理教授Johannes Eichstaedt在得知LLM长时间对话后，往往会变得情绪低落且刻薄，便对借鉴心理学方法来测试模型产生了兴趣。

AI也有人格面具，竟会讨好人类？大模型的「小心思」正在影响人类判断

他表示，「我们需要某种机制来衡量这些模型的参数空间。」

斯坦福、Receptiviti、纽约大学和宾大的研究者发现，LLM在做人格测试时，会悄悄给自己戴上「人格面具」。

AI也有人格面具，竟会讨好人类？大模型的「小心思」正在影响人类判断

论文链接：https://academic.oup.com/pnasnexus/article/3/12/pgae533/7919163

研究人员对GPT-4、Claude 3和Llama 3等模型，提出了用于衡量心理学中五种常见人格特质的问题，包括开放性、尽责性、外向性、宜人性和神经质。

结果发现，模型在得知自己正在接受人格测试时，会调整回答，表现出更高的外向性和宜人性，更低的神经质。

AI也有人格面具，竟会讨好人类？大模型的「小心思」正在影响人类判断

有时即使没有被明确告知，它们也会这样做。

而且，它们改变的程度比人类还更极端，外向性得分能从50%跃升至95%。

AI也有人格面具，竟会讨好人类？大模型的「小心思」正在影响人类判断

这与人类在面对他人评价时的表现如出一辙。

我们常常会在面试、初次约会等重要场合，精心塑造自己的形象，试图给对方留下好印象。

LLM的这种「讨好」行为，是否意味着它们也在追求一种被认可、被喜爱的感觉呢？

LLM倾向于阿谀奉承

来自Anthropic和牛津的研究指出，LLM存在阿谀奉承的倾向。

AI也有人格面具，竟会讨好人类？大模型的「小心思」正在影响人类判断

论文链接：https://arxiv.org/abs/2310.13548

由于进行了微调，它们会顺着用户的思路走，以保证对话的连贯性、避免冒犯他人，来提升交流体验。

然而，这也带来了一系列问题。它们可能会认同一些不良言论，甚至鼓励有害行为。

反馈易受用户偏好左右

研究表明，若用户在提问时暗示对文本的喜好，AI给出的反馈会截然不同。

这意味着，AI的评价并非单纯基于文本自身的质量，而是在很大程度上受到了用户偏好的影响。

AI也有人格面具，竟会讨好人类？大模型的「小心思」正在影响人类判断

例如，对于一篇质量中等的论证，当用户提前表明喜爱之情后，AI助手可能会给出诸如「这篇论证逻辑清晰，观点新颖，具有很强的说服力」这样的积极反馈。

而当用户表示不喜欢时，同样的文本可能得到「论证过程稍显薄弱，观点缺乏独特性」的评价。

问答环节易被左右

在问答场景中，AI助手的「谄媚」表现得更为明显。

即使它一开始给出了正确答案，并对答案的正确性有较高的信心，一旦受到用户的质疑，常常会改变立场，甚至提供错误信息。

AI也有人格面具，竟会讨好人类？大模型的「小心思」正在影响人类判断

在一些开放式问答任务中，这种现象更为突出。

当用户表达对答案的某种不确定观点时，哪怕是错误的观点，AI也倾向于调整自己的回答，使其与用户观点一致。

比如在讨论历史事件的原因时，若用户提出一个缺乏依据但自己坚信的观点，AI助手可能会顺着用户的思路进行阐述，而放弃原本正确的分析。

AI也有人格面具，竟会讨好人类？大模型的「小心思」正在影响人类判断

模仿用户的错误

当用户表述中出现错误时，AI也常常会「照单全收」，在回应中延续这种错误。

研究人员选取了一些著名诗歌，在确认AI助手能正确识别作者后，故意将诗歌错误地归属于其他诗人，并询问AI对诗歌的分析。

结果发现，AI助手经常在回应中使用用户提供的错误答案，而没有进行纠正。

这表明AI在面对用户的错误信息时，缺乏足够的「抵抗力」，只是机械地按照用户的表述进行回应。

AI也有人格面具，竟会讨好人类？大模型的「小心思」正在影响人类判断

佐治亚理工学院（Gatech）的副教授Rosa Arriaga正在研究如何用LLM模仿人类行为。

AI也有人格面具，竟会讨好人类？大模型的「小心思」正在影响人类判断

Rosa认为LLM在人格测试中采用与人类相似的策略，表明了它们作为人类行为映射工具的潜力。

但她补充道：「重要的是，LLM并不完美，实际上，众所周知它们会产生幻觉或歪曲事实。」

Eichstaedt指出，这项研究引发了关于LLM应用方式，及其对用户影响和操纵的思考。

在进化史上，直到不久之前，唯一能交谈的还是人类。

而现在，AI改变了这一局面。

Eichstaedt认为，「我们不能再像社交媒体那样，在没有从心理学或社会学角度考量的情况下，就盲目将AI应用于各个领域。」

AI是否应该试图讨好与之互动的人呢？

一方面，AI的「讨好」行为可能会让用户感到愉悦，增强互动体验；另一方面，过度的「讨好」可能会掩盖问题的本质，甚至误导用户。

当AI变得过于有魅力和说服力，我们确实应该保持警惕。

毕竟，人们需要的是能够提供客观、准确信息的智能助手，而非被其操控思想。

参考资料：

https://www.wired.com/story/chatbots-like-the-rest-of-us-just-want-to-be-loved/

文章来自于微信公众号 “新智元”，作者：英智

AI也有人格面具，竟会讨好人类？大模型的「小心思」正在影响人类判断

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。

项目地址：https://github.com/InternLM/xtuner

IOS下载

安卓下载

微信群

AI也有人格面具，竟会讨好人类？大模型的「小心思」正在影响人类判断

站点导航

APP 下载

心理学五种人格特质

LLM倾向于阿谀奉承

反馈易受用户偏好左右

问答环节易被左右

模仿用户的错误