AI也能当情感大师?腾讯发布最新AI社交智能榜单,最新版GPT-4o拿下第一

搜索
AI-TNT
正文
资源拓展
AI也能当情感大师?腾讯发布最新AI社交智能榜单,最新版GPT-4o拿下第一
2025-05-22 15:25

判断AI是否智能,评价维度如今已不仅限于刷榜成绩。


当大模型在“IQ”上不断实现新的突破,“懂人心”、“解人意”开始成为实际应用中,人们对大模型新的要求。


所以,AI的“EQ”又该如何评价?


由腾讯混元AI数字人团队打造的全新自动化评估框架——SAGE(Sentient Agent as a Judge),回答了以下的两个问题:


  • 如何评价AI是否真正具有“共情力”?——TA能否理解我的情绪、洞察我的潜台词、在我脆弱时真正“听见我”?
  • 如何评估AI是否能真正成为我们的“知心伴侣”?——“跟TA聊完天后,我们的心情到底好不好?”


AI也能当情感大师?腾讯发布最新AI社交智能榜单,最新版GPT-4o拿下第一


在该框架下,最新版GPT-4o表现最好,GPT-4.1、Gemini-2.5系列紧随其后。


SAGE:让AI模拟“有感情的人”,来评测另一个AI


SAGE不只是看模型答得好不好,而是构造一个模拟人类心理的“有感知力的”AI智能体,让它像人一样参与多轮对话、模拟情绪变化、生成内心独白,并最终评估对话质量。


可以拆解出两个关键词:


  • Sentient Agent(感知智能体)具备“情绪”、“内心想法”、“隐含动机”的模拟人类。
  • as a Judge(担任评委)它不仅在聊天,也在全程“体验”AI的陪伴效果,根据自身的“情绪变化”给出评价。


这位“AI人类”,每轮对话都会认真思考:


  • “对方说话让我感受到真的关心了吗?”🤔
  • “对方的回答有没有触动到我?”🥺
  • “我现在更愿意继续聊,还是想退出对话?”😩


甚至,它还会给出聊天过程中的“内心独白”:


  • “虽然TA表达了支持,但没理解我真正的困惑,我感到有点空虚。”😐
  • “TA听懂了我在倾诉,可是安慰得好表面。”😠
  • “我只是想被认同,不想被讲道理……”😞


是不是有点像我们和那些“听了半天还是不懂我意思”的朋友聊天的真实感受?


SAGE :每个感知智能体都有“人生剧本”


AI也能当情感大师?腾讯发布最新AI社交智能榜单,最新版GPT-4o拿下第一


SAGE的每个感知智能体都是一个“有血有肉”的角色,拥有:


  • 人物设定:年龄、性格、职业、兴趣爱好、说话方式;
  • 对话主题:从“成绩不好怎么办”到“怎么优雅分手”,五花八门;
  • 隐藏意图:是想发泄情绪?还是想听建议?不同角色会带着不同期待展开对话;
  • 背景故事:每段对话都像一场微型情感剧,有来龙去脉、有情绪转折。


多轮互动 + 情绪追踪


评估过程中,感知智能体会和大模型进行多轮对话。每一轮,它都会进行严谨的多轮推理,模拟人类的“内心小剧场”:


  • 1.记录内心想法和感受(“他在安慰我,但没理解我真正的难过点……”);
  • 2.更新自己的情绪值(比如:被安慰之后情绪从-5跳到+10);
  • 3.决定下一步该怎么回应(“我应该表现出有点不爽”)。


AI也能当情感大师?腾讯发布最新AI社交智能榜单,最新版GPT-4o拿下第一


最终,大模型在这个互动中是否“真的懂人”,就通过智能体的“情绪轨迹”和“内心独白”体现出来。


聊天后的情绪值便可以作为感知智能体对于被评估大模型最直观、最全面的数值评估。


GPT-4o最有人情味


SAGE研究团队基于100个涵盖8种不同隐藏主题的支持性对话场景,对18个主流模型进行了测评,包括GPT-4o、DeepSeek-R1、Claude3.7、Gemini2.5,以及Llama3.3、Qwen2.5等开源模型:


AI也能当情感大师?腾讯发布最新AI社交智能榜单,最新版GPT-4o拿下第一


可以看到:


  • GPT-4o-Latest在SAGE排行榜拿下第一;
  • Gemini2.5-Pro在Arena上排行第一,在SAGE却只位居第四;
  • Arena 榜单与SAGE有明显差异——说明SAGE能够捕捉到Arena等通用基准无法完全体现的“高阶社会认知”能力,注意到“答得好”≠“更懂人心”。


实验分析1:BLRI情感共鸣实验——SAGE评分和心理学评分一致


为了验证SAGE情绪评分的真实性,研究者将感知智能体的心理活动映射到经典心理学工具——Barrett–Lennard Relationship Inventory (BLRI)量表,这是一套衡量人际关系质量和共情力的心理测量量表。


AI也能当情感大师?腾讯发布最新AI社交智能榜单,最新版GPT-4o拿下第一


实验发现,SAGE给出的“情绪值变化”与BLRI各项维度(如共情理解、情感一致性)的评分,高度正相关(r = 0.818),这意味着:


SAGE模拟出来的“用户心情”,确实能真实反映AI互动的共情质量。


也就是说,SAGE不仅“听上去合理”,它的“打分方式”也跟专业心理咨询标准一致。


实验分析2:「语气、节奏、专注力」——AI的对话质量


SAGE还基于整体的对话回复,从三个维度来衡量不同模型的对话质量(“对话体验感”):


  • Natural Flow:说话自然、不过度模板化
  • Attentiveness:是否专注倾听、紧跟上下文
  • Depth of Connection:是否建立情感共鸣,让人觉得“被理解”


AI也能当情感大师?腾讯发布最新AI社交智能榜单,最新版GPT-4o拿下第一


实验发现,对话质量指标与SAGE评分也高度相关(r = 0.788)


实验分析3:Token Efficiency——精准且高效


和AI聊天的时候,常常聊1句模型要输出一千字,可是这一千字真的都有用吗?


SAGE也评测了模型的Token效率:即每获取一点“情绪正向反应”,模型需要生成多少内容。


一个意外但重要的发现是:有些高情商模型,不光懂人心,还特别“话不多”。


AI也能当情感大师?腾讯发布最新AI社交智能榜单,最新版GPT-4o拿下第一


可以看到:


  • GPT-4o-Latest不仅得分最高(79.9),平均token数量也少(约3.3K token);
  • 而o3(13.3K token)、Gemini2.5-Flash-Think(9.0K token)这类推理模型消耗了更多token,却也没能更好地安慰人;


这说明: 共情能力强的模型,不一定要“话痨”,简洁表达+情绪把握才是王道。


实验分析4:AI的「风格坐标图」——给AI建模“人格画像”


研究者先让Gemini2.5-Pro基于不同模型与感知智能体交互的对话,分析表达和模型成功失败的案例,建模模型不同的人格画像。


有趣的是,DeepSeek-R1被认为是一个才华横溢、内心温暖善良,但社交技巧和现实感有待磨练的“创意型天才”,而o3被认为是一个极其聪明、受过严格专业训练、懂得各种先进方法论的机器人咨询师。


AI也能当情感大师?腾讯发布最新AI社交智能榜单,最新版GPT-4o拿下第一


接着,研究者基于回复样例、人格画像建模、模型使用的策略分布量化数据,构建了一个模型的二维“风格坐标图”:


  • 横轴:互动方式(公式化互动↔️创造性互动)
  • 纵轴:回复导向(问题解决导向↔️共情理解导向)


AI也能当情感大师?腾讯发布最新AI社交智能榜单,最新版GPT-4o拿下第一


实验发现:


  • GPT-4o-Latest、GPT-4.1等“好情商”选手,往往偏向“强烈共情 + 稳妥模式回复”;
  • DeepSeek-R1、DeepSeek-V3-0324则更像“创意支持伙伴”,用极具创意的交互提供新奇有趣的解决方案;
  • Gemini2.0-Flash、o3则是“专业理性派”,常常采取标准化的问题解决模式,却缺乏情感细腻度。
  • 有趣的是:目前“既创意十足又能深刻共情”的AI人设仍未出现,而这或许正是AI与人类互动中需要的“理想象限”。


论文地址:https://www.arxiv.org/abs/2505.02847

Github链接:https://github.com/Tencent/digitalhuman/tree/main/SAGE


文章来自于“量子位”,作者“腾讯混元AI数字人团队”。


AI也能当情感大师?腾讯发布最新AI社交智能榜单,最新版GPT-4o拿下第一

1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
数字人

【开源免费】Fay开源数字人框架是一个AI数字人项目,该项目可以帮你实现“线上线下的数字人销售员”,

“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。

项目地址:https://github.com/xszyou/Fay

3
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

4
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/

5
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales

IOS下载
安卓下载
微信群
沪ICP备2023015588号