最先进的AI大模型，为什么都在挑战《宝可梦》？

AI资讯 2025-05-13 11:16

+11306 阅读

各种AI模型在刚问世时，总有一个屡试不爽的“秀肌肉”手段，那就是让自家AI独立游玩某款游戏，用以检验模型的智能程度。

围棋选手李世石与AlphaGo的五番棋对决已经过去近十年。而后，不论是谷歌的DeepMind在《DOTA2》《星际争霸2》这些项目上击败人类职业选手，还是2023年英伟达宣布开发出能玩《我的世界》的VOYAGER，都在不断证明，“游戏”似乎就是AI的天然试验场。

大家在体感上应该也能体会到，这十年间AI技术发展迅速，如今的大语言模型，其训练方式、决策过程都与当初的AlphaGo有较大差异，但十年过去，不管是科技公司想展示研究成果，还是吸引不懂技术细节的普通人关注，“让AI玩游戏”依旧是个很常见的手段。

最近，谷歌的AI模型Gemini 2.5 Pro又因为做到了“独立通关初代《宝可梦》”，再次成了AI领域的热门话题，谷歌的现任CEO Sundar Pichai和DeepMind负责人Demis Hassabis甚至同时发表推文庆祝了这一时刻。

最先进的AI大模型，为什么都在挑战《宝可梦》？

但就像前面提到的，都到了2025年，让AI玩游戏、通关游戏早就不是什么新鲜话题，更何况是1995年发售的初代宝可梦，这款游戏本来也不以高难度、复杂程度著称。向来以休闲轻松为主的宝可梦系列，哪怕是游戏新手，都能在很短的时间内迅速上手，通关更不是难事。

那为什么让AI通关《宝可梦》就成了件大事？

上世纪80年代被提出的“莫拉维克悖论”（Moravec's paradox）曾提到一个反直觉观点：人类觉得容易的任务对人工智能来说其实更困难，反之亦然。

提出这一悖论的学者莫拉维克，曾为其写下一段直观解释：“要让电脑如成人般下棋相对容易，但让它拥有像一岁孩童般的感知和行动能力，却相当困难、乃至是不可能的。”

对于这次AI Gemini通关《宝可梦》，就更近似于让AI拥有自己的感知和行动力。

一

对AI来说，“独立通关初代《宝可梦》”是一个比人类的想象要复杂得多的挑战。

早在今年2月，美国另一家AI科技公司Anthropic就对外公布了名为“Claude Plays Pokémon”的技术实验，实验内容就和它的名称一样，试图让该公司旗下的最新版本AI Claude 3.7 Sonnet体验初代宝可梦游戏，并以“通关游戏”作为实验的最终目标。

这项实验最后以失败告终，Claude 3.7的最终进度是挑战三个道馆、获得三枚徽章，但哪怕是这个对人类玩家来说微不足道的成就，也是Claude反复迭代了一年的成果。

根据Anthropic公司释出的信息，一年前的3.0版Claude，甚至连游戏最初的“真新镇”都无法走出，之后的3.5版本略有进步，行程来到了“常磐森林”，但依旧无法获得第一个徽章。

进度缓慢的原因不外乎是：Claude的每一步决策都会经过漫长思考、毫无意义地重复探索走过的城镇、长时间卡在地图死角，或者反复与一个毫无帮助的路人NPC对话。

最先进的AI大模型，为什么都在挑战《宝可梦》？

Claude的通关过程也面向大众进行了直播

这些行为看似是“人工智障”，远不如在围棋或《星际争霸》这些策略游戏上战胜人类选手的AlphaGo，但这其实是二者训练方式的差异。

前几年那些能在围棋、《DOTA2》等项目中表现出色的AI，开发者通常会为算法提供游戏规则和策略的基础信息，并设置给AI正确行动提供正面回报的奖励函数，这便是经常提到的“强化学习”。

但对于像Claude、Gemini这种基于大语言模型的AI，针对的不是某款特定的游戏，研究人员并未提供《宝可梦》专属的游戏规则或目标指令，也不会对其进行特定的训练，而是直接让通用的Claude模型操作游戏。

这更近似于让一个对宝可梦游戏完全没有感念的纯新手，通过自己的感知和学习，逐步掌握游戏的过程。

再者，Claude在游玩游戏时，获得信息的渠道并非内部代码，而是和人类一样，所有内容都只能从游戏画面上获取，早期版本的Claude经常撞墙，原因就在于，相较于现代游戏更逼真的“墙”，AI很难识别这些由像素组成的抽象画面，而这对人类玩家来说却是一件很轻松的事。

最先进的AI大模型，为什么都在挑战《宝可梦》？

AI需要为画面中的每一个坐标点标注信息，红色被视为无法通过的区域

反倒是宝可梦更复杂的属性克制系统，Claude理解起来非常容易。比如，当游戏提示电属性技能对岩石系宝可梦的“效果一般”时，Claude迅速捕捉到了这个关键信息，并将其应用到后续组队和宝可梦对战策略上。

二

为什么研究人员能肯定AI确实理解了“属性克制”？因为目前的大语言模型，已经可以将完整的思考过程同步呈现给外界。

最先进的AI大模型，为什么都在挑战《宝可梦》？

Claude玩宝可梦时，左侧会同步显示每一步操作的决策过程

这同样也是这一项目试图探索的效果，就像上图展示的那样，Claude在使用比比鸟对战电系的小磁怪时，对自己掌握的四个技能进行了全面分析：

“翅膀攻击这样的飞行系招式对电系宝可梦不是很奏效。”

“起风和电光一闪这样的招式只能造成中等伤害。”

“泼沙只是降低命中率，不造成直接伤害。”

最后Claude做出了总结：

由于比比鸟在属性上处于劣势，我应该尽快击败小磁怪。我最好的选择可能是翅膀攻击，这是我拥有的最强的招式，尽管它效果一般。让我按三次“下”再按一次“确定”来选择翅膀攻击。

虽然现在展示的仍是相对浅层的思考，但相比于AlphaGo这种纯“黑箱式”的决策过程，Claude和其他以大语言模型为核心的AI，在实用性上无疑前进了一大步。

要知道，早年AlphaGo在围棋领域最令人印象深刻的，便是总能下出让人类难以理解、但最后又能取得胜利的“妙手”，可惜，当时经由“强化学习”训练的AlphaGo，决策过程难以用自然语言向人类清晰呈现，否则，人类棋手或许也会从AI的逻辑得到进一步启发。

而对于玩宝可梦的Claude来说，虽然在策略层面没有什么让人类眼前一亮的操作，但在显示了思考过程后，反倒展示了一些“意料之外”的思维逻辑。

比如下面这一幕，当Claude在游戏的“月见山”地图中迷路，认为无法通过正常手段走出洞穴时，AI做了一个非常“人类化”的思考：

“我现在最好的选择是故意输掉一场战斗，这样我就会被传送回上一次访问的宝可梦中心，也就是4号道路上的月见山宝可梦中心，从那里我就可以按之前验证的路径前往华蓝市了。”

最先进的AI大模型，为什么都在挑战《宝可梦》？

再比如，AI也会有“认错NPC”的现象。游戏初期时，Claude被要求寻找NPC“大木博士”，但游戏没有提供明确的指引，也没有说明NPC的具体位置和外形特征，实现这种“模糊目标”对于AI来说其实难度更大。

在接到这个任务后，Claude也进行了一段非常拟人的思考：“我注意到下方出现了一个新角色——一个黑发、身穿白色外套的角色，位于坐标(2，10)，这可能是大木博士！让我下去和他谈谈。”

随后它便和一个跟主线毫无关系的NPC对话了数次，最终才意识到这并非自己想找的大木博士。

三

而前几天通关同一版本游戏的AI Gemini之所以受到关注，不仅是因为它能在人类不提供任何规则信息的条件下完成游戏，而且据官方统计，Gemini总操作步数约为10.6万次，甚至比Claude获得第三个徽章时达成的21.5万步要少一半。

最先进的AI大模型，为什么都在挑战《宝可梦》？

Gemini通关初代宝可梦

这看似说明Gemini的智能水平要优于Claude，但负责Gemini项目的研究人员JoelZ自己也表示：无法直接比较这两个AI，因为这不是在完全相同的条件下进行的测试。

区别在于Agent Harness，即“代理执行框架”，它的作用是连接AI模型与游戏，负责处理输入的信息，如游戏画面、文字数据等，并将模型的决策转化为按键指令等操作。

从官方公布的信息看，Gemini的代理执行框架在某些程度上的确优于Claude，比如在对地图的分析上，它不仅为每个区域标注了坐标，而且还注明了坐标的可通行状态，这对于不擅长直接解析像素画面的大语言模型来说，提供了巨大的帮助：

最先进的AI大模型，为什么都在挑战《宝可梦》？

但就像开发者自己说的，让AI玩宝可梦，意义并不在于对比不同AI的水平高低。

像《宝可梦》这类游戏，更需要AI感知环境、理解模糊目标、长线规划行动的能力，它必须不断接收游戏画面、理解不同阶段的规则，并将决策转换为游戏操作。之所以执着于让AI操作这类游戏，也因为如果AI能够在人类没有干预的情况下通关，也说明了它拥有能独立学习，解决现实中某些复杂问题的潜力。

从早年的围棋到现在的《宝可梦》，AI在实验和“秀肌肉”环节的逐年演变，并不单是个吸引大众关注的噱头，其实一定程度上也代表了这项技术的发展方向：从处理单一问题的专才，到能够自我学习，解决不同领域问题的通用人工智能。

或许这正是众多AI科技公司选择《宝可梦》来用作训练的原因：这款游戏本身便是关于成长、选择与冒险的旅程。过去，我们在游戏中体验进化与策略，而现在，AI正在游戏中尝试理解世界的规则本身。

文章来自于“游戏研究社”，作者“嘤肉卫星”。

最先进的AI大模型，为什么都在挑战《宝可梦》？

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。

项目地址：https://github.com/Significant-Gravitas/AutoGPT

【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

无人直播

【开源免费】VideoChat是一个开源数字人实时对话，该项目支持支持语音输入和实时对话，数字人形象可自定义等功能，首次对话延迟低至3s。

项目地址：https://github.com/Henry-23/VideoChat

在线体验：https://www.modelscope.cn/studios/AI-ModelScope/video_chat

【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案，生成数字人形象进行直播，并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址：https://github.com/PeterH0323/Streamer-Sales