AI也能当情感大师？腾讯发布最新AI社交智能榜单，最新版GPT-4o拿下第一

AI技术研报 2025-05-22 15:25

+10439 阅读

判断AI是否智能，评价维度如今已不仅限于刷榜成绩。

当大模型在“IQ”上不断实现新的突破，“懂人心”、“解人意”开始成为实际应用中，人们对大模型新的要求。

所以，AI的“EQ”又该如何评价？

由腾讯混元AI数字人团队打造的全新自动化评估框架——SAGE（Sentient Agent as a Judge），回答了以下的两个问题：

如何评价AI是否真正具有“共情力”？——TA能否理解我的情绪、洞察我的潜台词、在我脆弱时真正“听见我”？
如何评估AI是否能真正成为我们的“知心伴侣”？——“跟TA聊完天后，我们的心情到底好不好？”

AI也能当情感大师？腾讯发布最新AI社交智能榜单，最新版GPT-4o拿下第一

在该框架下，最新版GPT-4o表现最好，GPT-4.1、Gemini-2.5系列紧随其后。

SAGE：让AI模拟“有感情的人”，来评测另一个AI

SAGE不只是看模型答得好不好，而是构造一个模拟人类心理的“有感知力的”AI智能体，让它像人一样参与多轮对话、模拟情绪变化、生成内心独白，并最终评估对话质量。

可以拆解出两个关键词：

Sentient Agent（感知智能体）具备“情绪”、“内心想法”、“隐含动机”的模拟人类。
as a Judge（担任评委）它不仅在聊天，也在全程“体验”AI的陪伴效果，根据自身的“情绪变化”给出评价。

这位“AI人类”，每轮对话都会认真思考：

“对方说话让我感受到真的关心了吗？”🤔
“对方的回答有没有触动到我？”🥺
“我现在更愿意继续聊，还是想退出对话？”😩

甚至，它还会给出聊天过程中的“内心独白”：

“虽然TA表达了支持，但没理解我真正的困惑，我感到有点空虚。”😐
“TA听懂了我在倾诉，可是安慰得好表面。”😠
“我只是想被认同，不想被讲道理……”😞

是不是有点像我们和那些“听了半天还是不懂我意思”的朋友聊天的真实感受？

SAGE ：每个感知智能体都有“人生剧本”

AI也能当情感大师？腾讯发布最新AI社交智能榜单，最新版GPT-4o拿下第一

SAGE的每个感知智能体都是一个“有血有肉”的角色，拥有：

人物设定：年龄、性格、职业、兴趣爱好、说话方式；
对话主题：从“成绩不好怎么办”到“怎么优雅分手”，五花八门；
隐藏意图：是想发泄情绪？还是想听建议？不同角色会带着不同期待展开对话；
背景故事：每段对话都像一场微型情感剧，有来龙去脉、有情绪转折。

多轮互动 + 情绪追踪

评估过程中，感知智能体会和大模型进行多轮对话。每一轮，它都会进行严谨的多轮推理，模拟人类的“内心小剧场”：

1.记录内心想法和感受（“他在安慰我，但没理解我真正的难过点……”）；
2.更新自己的情绪值（比如：被安慰之后情绪从-5跳到+10）；
3.决定下一步该怎么回应（“我应该表现出有点不爽”）。

AI也能当情感大师？腾讯发布最新AI社交智能榜单，最新版GPT-4o拿下第一

最终，大模型在这个互动中是否“真的懂人”，就通过智能体的“情绪轨迹”和“内心独白”体现出来。

而聊天后的情绪值便可以作为感知智能体对于被评估大模型最直观、最全面的数值评估。

GPT-4o最有人情味

SAGE研究团队基于100个涵盖8种不同隐藏主题的支持性对话场景，对18个主流模型进行了测评，包括GPT-4o、DeepSeek-R1、Claude3.7、Gemini2.5，以及Llama3.3、Qwen2.5等开源模型：

AI也能当情感大师？腾讯发布最新AI社交智能榜单，最新版GPT-4o拿下第一

可以看到：

GPT-4o-Latest在SAGE排行榜拿下第一；
Gemini2.5-Pro在Arena上排行第一，在SAGE却只位居第四；
Arena 榜单与SAGE有明显差异——说明SAGE能够捕捉到Arena等通用基准无法完全体现的“高阶社会认知”能力，注意到“答得好”≠“更懂人心”。

实验分析1：BLRI情感共鸣实验——SAGE评分和心理学评分一致

为了验证SAGE情绪评分的真实性，研究者将感知智能体的心理活动映射到经典心理学工具——Barrett–Lennard Relationship Inventory (BLRI)量表，这是一套衡量人际关系质量和共情力的心理测量量表。

AI也能当情感大师？腾讯发布最新AI社交智能榜单，最新版GPT-4o拿下第一

实验发现，SAGE给出的“情绪值变化”与BLRI各项维度（如共情理解、情感一致性）的评分，高度正相关（r = 0.818），这意味着：

SAGE模拟出来的“用户心情”，确实能真实反映AI互动的共情质量。

也就是说，SAGE不仅“听上去合理”，它的“打分方式”也跟专业心理咨询标准一致。

实验分析2：「语气、节奏、专注力」——AI的对话质量

SAGE还基于整体的对话回复，从三个维度来衡量不同模型的对话质量（“对话体验感”）：

Natural Flow：说话自然、不过度模板化
Attentiveness：是否专注倾听、紧跟上下文
Depth of Connection：是否建立情感共鸣，让人觉得“被理解”

AI也能当情感大师？腾讯发布最新AI社交智能榜单，最新版GPT-4o拿下第一

实验发现，对话质量指标与SAGE评分也高度相关（r = 0.788）。

实验分析3：Token Efficiency——精准且高效

和AI聊天的时候，常常聊1句模型要输出一千字，可是这一千字真的都有用吗？

SAGE也评测了模型的Token效率：即每获取一点“情绪正向反应”，模型需要生成多少内容。

一个意外但重要的发现是：有些高情商模型，不光懂人心，还特别“话不多”。

AI也能当情感大师？腾讯发布最新AI社交智能榜单，最新版GPT-4o拿下第一

可以看到：

GPT-4o-Latest不仅得分最高（79.9），平均token数量也少（约3.3K token）；
而o3（13.3K token）、Gemini2.5-Flash-Think（9.0K token）这类推理模型消耗了更多token，却也没能更好地安慰人；

这说明：共情能力强的模型，不一定要“话痨”，简洁表达+情绪把握才是王道。

实验分析4：AI的「风格坐标图」——给AI建模“人格画像”

研究者先让Gemini2.5-Pro基于不同模型与感知智能体交互的对话，分析表达和模型成功失败的案例，建模模型不同的人格画像。

有趣的是，DeepSeek-R1被认为是一个才华横溢、内心温暖善良，但社交技巧和现实感有待磨练的“创意型天才”，而o3被认为是一个极其聪明、受过严格专业训练、懂得各种先进方法论的机器人咨询师。

AI也能当情感大师？腾讯发布最新AI社交智能榜单，最新版GPT-4o拿下第一

接着，研究者基于回复样例、人格画像建模、模型使用的策略分布量化数据，构建了一个模型的二维“风格坐标图”：

横轴：互动方式（公式化互动↔️创造性互动）
纵轴：回复导向（问题解决导向↔️共情理解导向）

AI也能当情感大师？腾讯发布最新AI社交智能榜单，最新版GPT-4o拿下第一

实验发现：

GPT-4o-Latest、GPT-4.1等“好情商”选手，往往偏向“强烈共情 + 稳妥模式回复”；
DeepSeek-R1、DeepSeek-V3-0324则更像“创意支持伙伴”，用极具创意的交互提供新奇有趣的解决方案；
Gemini2.0-Flash、o3则是“专业理性派”，常常采取标准化的问题解决模式，却缺乏情感细腻度。
有趣的是：目前“既创意十足又能深刻共情”的AI人设仍未出现，而这或许正是AI与人类互动中需要的“理想象限”。

论文地址：https://www.arxiv.org/abs/2505.02847

Github链接：https://github.com/Tencent/digitalhuman/tree/main/SAGE

文章来自于“量子位”，作者“腾讯混元AI数字人团队”。

AI也能当情感大师？腾讯发布最新AI社交智能榜单，最新版GPT-4o拿下第一

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。

项目地址：https://github.com/browser-use/browser-use

数字人

【开源免费】Fay开源数字人框架是一个AI数字人项目，该项目可以帮你实现“线上线下的数字人销售员”，

“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。

项目地址：https://github.com/xszyou/Fay

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。

项目地址：https://github.com/Significant-Gravitas/AutoGPT

【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点，无需魔法付费，即可无限制使用GPT-4o等多个海外模型产品。

在线使用：https://ffa.chat/

无人直播

【开源免费】VideoChat是一个开源数字人实时对话，该项目支持支持语音输入和实时对话，数字人形象可自定义等功能，首次对话延迟低至3s。

项目地址：https://github.com/Henry-23/VideoChat

在线体验：https://www.modelscope.cn/studios/AI-ModelScope/video_chat

【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案，生成数字人形象进行直播，并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址：https://github.com/PeterH0323/Streamer-Sales