最先进的AI大模型,为什么都在挑战《宝可梦》?

搜索
AI-TNT
正文
资源拓展
最先进的AI大模型,为什么都在挑战《宝可梦》?
2025-05-13 11:16

最先进的AI大模型,为什么都在挑战《宝可梦》?


各种AI模型在刚问世时,总有一个屡试不爽的“秀肌肉”手段,那就是让自家AI独立游玩某款游戏,用以检验模型的智能程度。


围棋选手李世石与AlphaGo的五番棋对决已经过去近十年。而后,不论是谷歌的DeepMind在《DOTA2》《星际争霸2》这些项目上击败人类职业选手,还是2023年英伟达宣布开发出能玩《我的世界》的VOYAGER,都在不断证明,“游戏”似乎就是AI的天然试验场。


大家在体感上应该也能体会到,这十年间AI技术发展迅速,如今的大语言模型,其训练方式、决策过程都与当初的AlphaGo有较大差异,但十年过去,不管是科技公司想展示研究成果,还是吸引不懂技术细节的普通人关注,“让AI玩游戏”依旧是个很常见的手段。


最近,谷歌的AI模型Gemini 2.5 Pro又因为做到了“独立通关初代《宝可梦》”,再次成了AI领域的热门话题,谷歌的现任CEO Sundar Pichai和DeepMind负责人Demis Hassabis甚至同时发表推文庆祝了这一时刻。


最先进的AI大模型,为什么都在挑战《宝可梦》?


但就像前面提到的,都到了2025年,让AI玩游戏、通关游戏早就不是什么新鲜话题,更何况是1995年发售的初代宝可梦,这款游戏本来也不以高难度、复杂程度著称。向来以休闲轻松为主的宝可梦系列,哪怕是游戏新手,都能在很短的时间内迅速上手,通关更不是难事。


那为什么让AI通关《宝可梦》就成了件大事?


上世纪80年代被提出的“莫拉维克悖论”(Moravec's paradox)曾提到一个反直觉观点:人类觉得容易的任务对人工智能来说其实更困难,反之亦然。


提出这一悖论的学者莫拉维克,曾为其写下一段直观解释:“要让电脑如成人般下棋相对容易,但让它拥有像一岁孩童般的感知和行动能力,却相当困难、乃至是不可能的。”


对于这次AI Gemini通关《宝可梦》,就更近似于让AI拥有自己的感知和行动力。



对AI来说,“独立通关初代《宝可梦》”是一个比人类的想象要复杂得多的挑战。


早在今年2月,美国另一家AI科技公司Anthropic就对外公布了名为“Claude Plays Pokémon”的技术实验,实验内容就和它的名称一样,试图让该公司旗下的最新版本AI Claude 3.7 Sonnet体验初代宝可梦游戏,并以“通关游戏”作为实验的最终目标。


这项实验最后以失败告终,Claude 3.7的最终进度是挑战三个道馆、获得三枚徽章,但哪怕是这个对人类玩家来说微不足道的成就,也是Claude反复迭代了一年的成果。


根据Anthropic公司释出的信息,一年前的3.0版Claude,甚至连游戏最初的“真新镇”都无法走出,之后的3.5版本略有进步,行程来到了“常磐森林”,但依旧无法获得第一个徽章。


进度缓慢的原因不外乎是:Claude的每一步决策都会经过漫长思考、毫无意义地重复探索走过的城镇、长时间卡在地图死角,或者反复与一个毫无帮助的路人NPC对话。


最先进的AI大模型,为什么都在挑战《宝可梦》?

Claude的通关过程也面向大众进行了直播


这些行为看似是“人工智障”,远不如在围棋或《星际争霸》这些策略游戏上战胜人类选手的AlphaGo,但这其实是二者训练方式的差异。


前几年那些能在围棋、《DOTA2》等项目中表现出色的AI,开发者通常会为算法提供游戏规则和策略的基础信息,并设置给AI正确行动提供正面回报的奖励函数,这便是经常提到的“强化学习”


但对于像Claude、Gemini这种基于大语言模型的AI,针对的不是某款特定的游戏,研究人员并未提供《宝可梦》专属的游戏规则或目标指令,也不会对其进行特定的训练,而是直接让通用的Claude模型操作游戏。


这更近似于让一个对宝可梦游戏完全没有感念的纯新手,通过自己的感知和学习,逐步掌握游戏的过程。


再者,Claude在游玩游戏时,获得信息的渠道并非内部代码,而是和人类一样,所有内容都只能从游戏画面上获取,早期版本的Claude经常撞墙,原因就在于,相较于现代游戏更逼真的“墙”,AI很难识别这些由像素组成的抽象画面,而这对人类玩家来说却是一件很轻松的事。


最先进的AI大模型,为什么都在挑战《宝可梦》?

AI需要为画面中的每一个坐标点标注信息,红色被视为无法通过的区域


反倒是宝可梦更复杂的属性克制系统,Claude理解起来非常容易。比如,当游戏提示电属性技能对岩石系宝可梦的“效果一般”时,Claude迅速捕捉到了这个关键信息,并将其应用到后续组队和宝可梦对战策略上。



为什么研究人员能肯定AI确实理解了“属性克制”?因为目前的大语言模型,已经可以将完整的思考过程同步呈现给外界。


最先进的AI大模型,为什么都在挑战《宝可梦》?

Claude玩宝可梦时,左侧会同步显示每一步操作的决策过程


这同样也是这一项目试图探索的效果,就像上图展示的那样,Claude在使用比比鸟对战电系的小磁怪时,对自己掌握的四个技能进行了全面分析:


  • “翅膀攻击这样的飞行系招式对电系宝可梦不是很奏效。”


  • “起风和电光一闪这样的招式只能造成中等伤害。”


  • “泼沙只是降低命中率,不造成直接伤害。”


最后Claude做出了总结:


由于比比鸟在属性上处于劣势,我应该尽快击败小磁怪。我最好的选择可能是翅膀攻击,这是我拥有的最强的招式,尽管它效果一般。让我按三次“下”再按一次“确定”来选择翅膀攻击。


虽然现在展示的仍是相对浅层的思考,但相比于AlphaGo这种纯“黑箱式”的决策过程,Claude和其他以大语言模型为核心的AI,在实用性上无疑前进了一大步。


要知道,早年AlphaGo在围棋领域最令人印象深刻的,便是总能下出让人类难以理解、但最后又能取得胜利的“妙手”,可惜,当时经由“强化学习”训练的AlphaGo,决策过程难以用自然语言向人类清晰呈现,否则,人类棋手或许也会从AI的逻辑得到进一步启发。


而对于玩宝可梦的Claude来说,虽然在策略层面没有什么让人类眼前一亮的操作,但在显示了思考过程后,反倒展示了一些“意料之外”的思维逻辑。


比如下面这一幕,当Claude在游戏的“月见山”地图中迷路,认为无法通过正常手段走出洞穴时,AI做了一个非常“人类化”的思考:


“我现在最好的选择是故意输掉一场战斗,这样我就会被传送回上一次访问的宝可梦中心,也就是4号道路上的月见山宝可梦中心,从那里我就可以按之前验证的路径前往华蓝市了。”


最先进的AI大模型,为什么都在挑战《宝可梦》?


再比如,AI也会有“认错NPC”的现象。游戏初期时,Claude被要求寻找NPC“大木博士”,但游戏没有提供明确的指引,也没有说明NPC的具体位置和外形特征,实现这种“模糊目标”对于AI来说其实难度更大。


在接到这个任务后,Claude也进行了一段非常拟人的思考:“我注意到下方出现了一个新角色——一个黑发、身穿白色外套的角色,位于坐标(2,10),这可能是大木博士!让我下去和他谈谈。”


随后它便和一个跟主线毫无关系的NPC对话了数次,最终才意识到这并非自己想找的大木博士。



而前几天通关同一版本游戏的AI Gemini之所以受到关注,不仅是因为它能在人类不提供任何规则信息的条件下完成游戏,而且据官方统计,Gemini总操作步数约为10.6万次,甚至比Claude获得第三个徽章时达成的21.5万步要少一半。


最先进的AI大模型,为什么都在挑战《宝可梦》?

Gemini通关初代宝可梦


这看似说明Gemini的智能水平要优于Claude,但负责Gemini项目的研究人员JoelZ自己也表示:无法直接比较这两个AI,因为这不是在完全相同的条件下进行的测试。


区别在于Agent Harness,即“代理执行框架”,它的作用是连接AI模型与游戏,负责处理输入的信息,如游戏画面、文字数据等,并将模型的决策转化为按键指令等操作。


从官方公布的信息看,Gemini的代理执行框架在某些程度上的确优于Claude,比如在对地图的分析上,它不仅为每个区域标注了坐标,而且还注明了坐标的可通行状态,这对于不擅长直接解析像素画面的大语言模型来说,提供了巨大的帮助:


最先进的AI大模型,为什么都在挑战《宝可梦》?


但就像开发者自己说的,让AI玩宝可梦,意义并不在于对比不同AI的水平高低。


像《宝可梦》这类游戏,更需要AI感知环境、理解模糊目标、长线规划行动的能力,它必须不断接收游戏画面、理解不同阶段的规则,并将决策转换为游戏操作。之所以执着于让AI操作这类游戏,也因为如果AI能够在人类没有干预的情况下通关,也说明了它拥有能独立学习,解决现实中某些复杂问题的潜力。


从早年的围棋到现在的《宝可梦》,AI在实验和“秀肌肉”环节的逐年演变,并不单是个吸引大众关注的噱头,其实一定程度上也代表了这项技术的发展方向:从处理单一问题的专才,到能够自我学习,解决不同领域问题的通用人工智能。


或许这正是众多AI科技公司选择《宝可梦》来用作训练的原因:这款游戏本身便是关于成长、选择与冒险的旅程。过去,我们在游戏中体验进化与策略,而现在,AI正在游戏中尝试理解世界的规则本身。


文章来自于“游戏研究社”,作者“嘤肉卫星”。


最先进的AI大模型,为什么都在挑战《宝可梦》?

1
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

2
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales

IOS下载
安卓下载
微信群
沪ICP备2023015588号