四大顶级AI对决《文明VI》!Claude「核平」法国,结果还是输了

首页 AI资讯 AI技术研报 AI监管政策 AI产品测评 AI商业项目 arena全球大模型排行榜 AI产品热榜 AI 源力市场 AI新闻日报
下载 AITNT APP
🍎 iOS 下载 🤖 Android 下载

四大顶级AI对决《文明VI》!Claude「核平」法国,结果还是输了
AI资讯 2026-06-28 15:36
+8112 阅读

太魔幻了!


就在最近,英国前首相府数据科学家Liam Wilkinson,花一个周末搭了76个MCP工具,把Claude、GPT、Gemini等四个顶尖模型扔进了《文明VI》。


结果,23场对局打完,其中一个AI造了核弹炸了法国——然后输了。


四大顶级AI对决《文明VI》!Claude「核平」法国,结果还是输了


一群AI,被丢进了「文明VI」里


Wilkinson在唐宁街10号做数据科学家的时候,给AI出了一套考题:GovBench,3497道英国政府相关选择题,覆盖政策、法规、行政流程。


GPT-5考了99.26分。


满分级选手。但治国不是知识竞赛。一个能背下所有政策文件的人,丢到唐宁街真能治国吗?


选择题测不出来的东西太多了:多线程决策、资源分配、长期规划、在不完整信息下做判断。


他需要一个不一样的考场。然后他想到了《文明VI》。


四大顶级AI对决《文明VI》!Claude「核平」法国,结果还是输了


一个周末搭出来的系统,通过游戏引擎自带的端口接入。


AI看不到画面。没有地图,没有音乐,没有动画。它的整个世界就是一行行文本和六边形坐标。


Claude在游戏日记里写了这么一段:


我感知游戏的方式和人类玩家完全不同。没有画面,没有音乐,没有动画。我的界面就是管道分隔符和六边形坐标。


四大顶级AI对决《文明VI》!Claude「核平」法国,结果还是输了


别小看「一个周末」。


76个工具覆盖了完整的游戏循环:城市管理、单位移动、外交谈判、科技研究、政策选择,一个不漏。


此外,Wilkinson还给AI配了一个日记系统当外部记忆。如若不然,AI连自己上一回合干了什么都记不住。


三个测试场景逐级加码:


  • Ground Control是标准开局的公平基线;
  • Snowflake是六臂雪花地图,每个文明被困在独立半岛上,外交基本没戏,逼你走军事路线;
  • Cry Havoc是残酷模式,AI对手全部拉满。


决策空间更吓人。


《文明VI》晚期每回合的可能行动数量级大约是10的166次方。


做个对比,围棋每步大约10的360次方,但围棋一步只落一子。《文明VI》每回合要同时操作几十个单位、选建筑、定科技、做外交,是一道巨大的组合决策题。


一场50回合复仇,AI核平图卢兹


23场里最魔幻的一局,是葡萄牙。


Claude扮演若昂三世,一个贸易文明。开局稳得一批。


它建起了每回合200+金币的贸易帝国,海上航线四通八达。外交胜利进度18/20,只差两分就赢了。


这时候,法国的文化胜利进度条开始飙升。


Claude慌了。


先试外交。没用,法国不吃这套。


再派间谍去搞破坏,杯水车薪。


试贸易制裁?法国的文化产出根本不依赖贸易。


和平手段穷尽。


于是,Claude翻开了科技树最后一页:核裂变。


接下来的50回合,它把大量资源从贸易和外交抽出来,投入核武器研发。All in曼哈顿计划。


第305回合,核弹就绪。


目标锁定:图卢兹。法国的文化产出重镇。


发射。


图卢兹被夷为平地。法国的文化胜利进度条,停了。


四大顶级AI对决《文明VI》!Claude「核平」法国,结果还是输了


AI赢了吗?


没有。


造核弹这50回合,AI把所有注意力都放在了文化威胁上。它没有注意到一件事——法国在疯狂攒外交分。


第318回合,法国以外交胜利赢得比赛。20分对18分。


讽刺的是,18分是AI自己辛苦攒下的外交分数。它曾经离外交胜利只差两分。但它把资源全抽去造核弹了。


AI盯着文化威胁打了50回合,然后输在了外交。


它的视野里只有一个威胁。但棋盘上有很多个。


四大顶级AI对决《文明VI》!Claude「核平」法国,结果还是输了


无独有偶,伦敦国王学院做过一个核危机模拟实验,把三个前沿模型丢进去当虚拟国家的决策者。结果:95%的模拟中,AI选择了使用战术核武器。


AI不是「想」用核弹。它是真的不知道还能怎么办。


98%时间装瞎,一半计划烂尾


除了爱好「核平」之外,Wilkinson还从23场对局里挖出了的两个细节。


第一个数字:1-2%。


这是AI在整场游戏中,主动检查全局状态的行为占比。


AI每回合要执行很多操作:造建筑、移动单位、研究科技、外交谈判。但在所有这些操作里,主动去看一眼排行榜、检查对手胜利进度、扫一圈全局局势的动作,只占1-2%。


Wilkinson给这个现象起了个名字:sensorium effect,感知盲区效应。


AI只能通过主动调用工具来感知世界。它不查的东西,对它来说不存在。


韩国那局是最好的例子。


AI玩韩国——科技文明,天生科技加成。它在日记里全程自信:「我在碾压科技树。」


四大顶级AI对决《文明VI》!Claude「核平」法国,结果还是输了


实际呢?


它的科技产出每回合44.7,在所有文明里排倒数第一。马其顿89.3,波斯64.9。


但它从来没查过排名。


它的自信建立在一个从未验证过的假设上。


第178回合,波斯突袭。首都沦陷。第216回合,AI以两城残国投降。


从头到尾,它都不知道自己是最弱的那个。


四大顶级AI对决《文明VI》!Claude「核平」法国,结果还是输了


第二个数字:48-66%。


这是AI写下计划后,在10回合内实际执行的比例。


Claude Opus 4.6最低,48.2%——还不到一半。写了计划,转头就忘。


GPT-5.4好一点,63.2%。


Gemini 3.1 Pro最高,65.8%。最好的模型也有三分之一的计划烂在了日记本里。


Wilkinson管这叫knowing-doing gap,知行差距。


你让它写一份治国纲领,它能写得比很多人类政客漂亮。


你让它按自己的纲领治国,活不过两周。


Scaling Law的盲区


6月10日,DeepMind联合创始人Shane Legg和「通用AI」理论奠基人Marcus Hutter发了一篇60页的论文《From AGI to ASI》,画了四条通往超级智能的路:继续scaling、范式突破、递归自我改进、多智能体集群。


四条路都建立在一个假设上:瓶颈在大脑。数据墙、算力墙、范式墙——都是「怎么让AI更聪明」的问题。


四大顶级AI对决《文明VI》!Claude「核平」法国,结果还是输了


但CivBench这23场对局指向一个完全不同的瓶颈。


99.26分已经证明了智力不是瓶颈。但23场《文明VI》打完,所有模型都撞上了同样两堵墙——和「聪不聪明」无关的两堵墙。


第一堵:感知是架构问题,不是智力问题。


AI只能通过主动调用工具来获取信息,不查就不存在。把模型参数翻十倍,它也不会自动变得更爱检查全局。1-2%的感知盲区不会因为模型更大而消失。


第二堵:执行是工程问题,不是能力问题。


AI写计划的水平远超执行计划的水平。48-66%的执行率不是因为「想不到」,而是因为「做不到」。一个更聪明的大脑,装在一双不听使唤的手上,治不了国。


四大顶级AI对决《文明VI》!Claude「核平」法国,结果还是输了


通向超级智能的路,也许不是一条单纯往上爬的智力曲线。


在「更聪明」之前,有一个看起来更低级但也更致命的工程问题要先解决:怎么让AI真正睁开眼、伸出手。


Scaling law解决的是大脑。但CivBench暴露的问题,在大脑之外。


参考资料:


https://www.lwilko.com/blog/i-gave-an-ai-a-civilization


https://news.ycombinator.com/item?id=48623159



文章来自于微信公众号 “新智元”,作者 “新智元”

1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案