谷歌DeepMind首发AGI终极考纲!20万全球悬赏,撕下所有大模型伪装

AITNT
未登录
正文
资源拓展
谷歌DeepMind首发AGI终极考纲!20万全球悬赏,撕下所有大模型伪装
2026-03-18 16:16

AGI,究竟如何评判?刚刚,谷歌DeepMind发出重磅论文,直接从认知科学「借」了一套度量衡——把通用智能拆成10大认知能力,配一套三阶段评估协议,还联合Kaggle砸了20万美金,向全球研究者悬赏:谁能测出真正的AGI?


如今的AGI,究竟到达哪一站了?


就在刚刚,谷歌DeepMind给出了AGI的终极度量衡!


这篇名为《Measuring Progress Toward AGI: A Cognitive Framework》的论文,核心主张只有一句话:别再争AGI是什么了,先把怎么测这件事搞清楚。


谷歌DeepMind首发AGI终极考纲!20万全球悬赏,撕下所有大模型伪装

论文地址:https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/measuring-progress-toward-agi/measuring-progress-toward-agi-a-cognitive-framework.pdf


具体来说,AGI的评估被细化为10个关键的认知领域,包括感知、生成、注意力、学习、记忆、推理、元认知、执行功能、问题解决以及社会认知。


同时,谷歌DeepMind还想全球开发者,发起一场20万美元的Kaggle黑客松。


黑客松则是把出题权直接交给全球研究者——框架我搭好了,你们来帮忙造考卷。


从「AGI分级」到「AGI体检」


这不是DeepMind第一次尝试给AGI画路线图。


2023年,同一个团队发表了著名的「Levels of AGI」框架,把通往AGI的路拆成了5个性能等级。


从「新手」(Emerging)到「超人」(Superhuman),同时定义了6个自主性等级,从「纯工具」到「完全自主」。


谷歌DeepMind首发AGI终极考纲!20万全球悬赏,撕下所有大模型伪装


那篇论文的影响力很大,它给了整个行业一套共同语言,就像自动驾驶领域的L1到L5一样,让大家至少能在同一个坐标系里对话。


但它留下了一个巨大的空白:台阶画好了,怎么测每一级?


新论文就是来补这个缺口的。


10大认知能力:给通用智能画一张地图


它的核心,是一套把通用智能拆解为10种关键认知能力的「认知分类法」(Cognitive Taxonomy)。


具体来说,要想评估AI和人类认知能力之间到底差多少,第一步就是要搞清楚:人类的认知都包括哪些关键过程。


过去很多年里,心理学、神经科学和认知科学通过做实验、脑成像、研究病例、以及建立模型等方式,已经积累了大量相关成果。


正是基于这些研究,团队整理出了一套认知分类体系,用来描述实现AGI所需要的核心能力。


谷歌DeepMind首发AGI终极考纲!20万全球悬赏,撕下所有大模型伪装


先看8种基础能力


1. 感知(Perception)


从环境中提取和处理感官信息。包括视觉感知(从低级的边缘检测到高级的场景理解)、听觉感知(从音高辨别到语音理解)、以及AI独有的文本感知。


LLM通过token化直接处理文本,本质上是一种人类不具备的独特感知模态。这种「超能力」绕过了视觉,径直抵达语言。


谷歌DeepMind首发AGI终极考纲!20万全球悬赏,撕下所有大模型伪装


2. 生成(Generation)


产生文本、语音、动作(机器人控制、计算机操作)等输出。


其中最耐人寻味的是「思维生成」,也就是产生内部思考来指导决策。


DeepMind把这一项和OpenAI的o1式推理能力挂钩,并指出由于思维本质上是「内部的」,评估起来可能极其困难。


3. 注意力(Attention)


在信息过载时,就需要把认知资源集中到关键事物上。


这里有个微妙的平衡:既要专注于当前目标不被干扰,又要对环境中的意外变化保持警觉。太专注会错过危险信号,太分散又做不成事。


谷歌DeepMind首发AGI终极考纲!20万全球悬赏,撕下所有大模型伪装


4. 学习(Learning)


通过经验获取新知识和技能。


包括概念形成、联想学习、强化学习、观察学习、程序性学习、语言学习六大类。


关键在于,真正的AGI应该能在部署后持续学习并保留新知识,而不仅仅是在训练阶段或上下文窗口内「临时抱佛脚」。


5. 记忆(Memory)


存储和检索信息的能力。


包括语义记忆(世界知识)、情景记忆(特定事件)、程序性记忆(技能)、前瞻性记忆(记住未来某个时刻该做的事),以及一个容易被忽视的能力——遗忘


没错,能够主动清除过时或错误信息,也是智能的重要组成部分。


谷歌DeepMind首发AGI终极考纲!20万全球悬赏,撕下所有大模型伪装


6. 推理(Reasoning)


通过逻辑原则得出有效结论。


涵盖演绎、归纳、溯因、类比和数学推理五种。


值得注意的是,自动模式匹配不算推理。


谷歌DeepMind首发AGI终极考纲!20万全球悬赏,撕下所有大模型伪装


7. 元认知(Metacognition)


这可能是10项能力中最能拉开差距的一项。


它要求系统:


  • 知道自己知道什么、不知道什么(元认知知识);
  • 能实时监测自己的认知状态,比如对答案的置信度是否准确(元认知监控);
  • 以及根据监控结果调整策略,比如发现自己在犯错时主动切换方法(元认知控制)。


说得直白一点:一个不知道自己在胡说八道的AI,谈什么可靠性?


谷歌DeepMind首发AGI终极考纲!20万全球悬赏,撕下所有大模型伪装


8. 执行功能(Executive Functions)


支撑目标导向行为的高阶能力集合。


包括目标设定、规划、抑制控制(抵制习惯性反应,选择更合适的行动)、认知灵活性(在不同思维方式间切换)、冲突解决、以及工作记忆。


除了以上8种「基础构件」,框架还定义了2种「复合能力」


9. 问题解决(Problem Solving)


综合运用感知、推理、规划、学习等能力来解决具体问题。


下分流体推理、数学问题解决、算法问题解决、常识问题解决(包括时间推理、空间推理、因果推理、直觉物理)和知识发现。


10. 社会认知(Social Cognition)


处理和解读社会信息、在社交场景中做出恰当反应的能力。


包括社会感知、心智理论(推断他人的信念和意图),以及合作、谈判、说服甚至欺骗等社交技能。


值得注意的是,说服和欺骗在某些语境下,也可能构成危险能力。


总的来说,根据DeepMind的核心假设,如果一个系统在这10个维度中存在任何明显短板,它就无法完成大多数人类能完成的现实任务。


那么,它就不是真正的「通用」智能。


谷歌DeepMind首发AGI终极考纲!20万全球悬赏,撕下所有大模型伪装


三步验出AI的真实成色


有了分类法,接下来的问题是怎么评估。


对此,谷歌提出了三阶段评估协议。


第一步:认知评测。


让AI完成覆盖全部10种认知能力的任务。


任务设计有严格要求:


  • 必须针对具体认知能力(不能一个任务混测一堆东西);
  • 必须使用保密题库;必须经独立第三方审计;
  • 难度要有梯度(既有对人类容易但对AI难的题,也有挑战人类极限的题);
  • 格式要多样(选择题、开放问答、多模态、多步骤)。


第二步:收集人类基线。


让大量人类在完全相同的条件下做同样的题。


相同的指令、相同的回答格式、相同的工具访问权限。


对此DeepMind建议,样本应该是「具有人口统计学代表性的、至少完成了高中教育的成年人」。


第三步:构建认知画像。


把AI的表现放到人类表现的分布中定位——计算这个系统超过了多少比例的人类被试,在10个维度上画出一张雷达图。


为什么一定要画雷达图?


因为AI能力的一个核心特征是「锯齿状」(Jagged)的。这也是DeepMind在另一项研究中反复验证的现象:


一个模型可能在逻辑推理上碾压99%的人类,却在社会认知或常识推理上连人类中位数都不如。


只看一个总分,根本看不出这种致命的偏科。而雷达图就是用来撕下这层伪装的。


DeepMind展示了三种假想场景:


A. 某系统在部分维度上低于人类中位数,这样的系统在某些真实场景中必然「掉链子」。


B. 全部10项都超过人类中位数,至少能匹配50%的人类。


C. 全部达到第99百分位,几乎能匹配任何人。


谷歌DeepMind首发AGI终极考纲!20万全球悬赏,撕下所有大模型伪装


同时,DeepMind也没有回避不确定性的三大来源:(1)任务本身的质量是否过关、(2)测试是否真的在测目标能力(构念效度)、(3)生成式AI固有的随机性——同一个问题问两次,可能得到截然不同的答案。


旧尺子为什么废了


谷歌DeepMind的这项研究,意义究竟在哪里?


为什么以前衡量AGI的尺度,现在已经不行了?


原因就在于,现在根本无法判断什么是AGI:GPT-4能考律师资格证,Gemini能读十万token的论文,Claude写代码比程序员还快。


但究竟哪个才叫AGI?现有的评测体系不仅接不住这个问题,而且有两个底层逻辑已经崩了。


第一个是「小镇做题家」困境:数据污染。


如果一个AI系统在训练阶段就已经从海量互联网数据里「见过」了测试题的答案或解题策略,那它拿高分根本无法证明它具备通用智能,顶多算个记忆力超群的复读机。


第二个更棘手:到底是评「模型」还是评「系统」?


以前我们测的是一个孤立的模型,但今天的AI是一个完整的系统。它带着系统提示,能调用计算器,能执行代码,能联网搜索,甚至能调用其他AI模型。


比如你想测一个AI的历史知识储备,但这个系统却可以随时搜索互联网。那你测出来的到底是它的「记忆力」还是「搜索技能」?


题库泄漏、评测对象模糊——旧体系千疮百孔,这正是DeepMind要从认知科学重新建一套评估框架,并把出题权交给全世界的原因。


20万美金黑客松:全球极客集结


DeepMind坦承,在问题解决和世界知识等领域,现有的benchmark尚可一用;但在元认知、注意力、学习和社会认知这几个深水区,几乎是一片评测荒地。


与论文同步推出的Kaggle黑客松,精准瞄向评估缺口最大的5种认知能力:学习、元认知、注意力、执行功能、社会认知


参赛者可以利用Kaggle新推出的Community Benchmarks平台来构建自己的评估方案,直接在一系列前沿大模型上验证效果。


谷歌DeepMind首发AGI终极考纲!20万全球悬赏,撕下所有大模型伪装

项目地址:https://www.kaggle.com/competitions/kaggle-measuring-agi


奖金总计20万美元。


5个赛道各设2个一等奖,每个1万美元,这是对单项深度的奖励。


另外还有4个2.5万美元的全场特等奖,颁给最优秀的跨赛道提交。以此鼓励参赛者做出具有「通用性」的评估工具,而不是只在一个领域里精耕。


谷歌DeepMind首发AGI终极考纲!20万全球悬赏,撕下所有大模型伪装


时间线:3月17日开放提交,4月16日截止,6月1日公布结果。


谷歌DeepMind首发AGI终极考纲!20万全球悬赏,撕下所有大模型伪装


如果运转良好,这套认知评估体系有机会成为AGI领域的公共基础设施——就像ImageNet之于计算机视觉那样。


框架之外:那些更棘手的问题


此外,在讨论章节,团队还主动列出了几个认知评估「管不到」但同样重要的维度。


处理速度。


答对是一回事,答得快又是另一回事。一个能修bug但要6小时的系统和一个1分钟搞定的系统,实用价值天差地别。


系统倾向性。


不仅要看系统「能做什么」,还要看它「倾向于做什么」。它的风险偏好如何?价值观是否与人类对齐?这些行为特征深刻影响系统部署后的安全性。


创造力。


创造力的核心组件(认知灵活性、世界知识、问题解决)已被分类法覆盖,但「创造力」作为一个整体,目前很难客观地隔离和评估。


端到端部署评估。


认知评测不能替代应用场景的实测。认知评估帮你解释模型「为什么在这里失败了」,部署评估帮你预测「上线后会不会出事」,两者互补。


评估AGI,只是起点


DeepMind在最后说了一句很关键的话:这套框架是一个「起点」。


AI系统几乎可以确定会发展出人类认知分类法无法完全覆盖的能力,比如LiDAR感知、原生图像生成这类人类根本不具备的能力。分类法本身也需要迭代。


每种认知能力和现实世界表现之间的具体关系,目前只有理论推测。


DeepMind这篇论文的意义,在于——


从今天起,AGI评估这件事从主管判断,开始走向有理论基础、可操作、可迭代的科学轨道。


接下来的问题只有一个,第一个在所有维度上点亮的,会是谁?


参考资料:

https://blog.google/innovation-and-ai/models-and-research/google-deepmind/measuring-agi-cognitive-framework/

https://storage.googleapis.com/deepmind-


文章来自于“新智元”,作者 “好困 Aeneas”。

添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
IOS下载
安卓下载
微信群