大模型终于通关《宝可梦蓝》!网友:Gemini 2.5 Pro酷爆了

搜索
AI-TNT
正文
资源拓展
大模型终于通关《宝可梦蓝》!网友:Gemini 2.5 Pro酷爆了
2025-05-03 16:28

就在刚刚,Gemini 2.5 Pro在直播中通关了《宝可梦蓝》!


谷歌CEO劈柴哥第一时间兴奋官宣,放出通关时刻珍贵影像:


大模型终于通关《宝可梦蓝》!网友:Gemini 2.5 Pro酷爆了


大模型这一小步,把网友们也整嗨了。


大模型终于通关《宝可梦蓝》!网友:Gemini 2.5 Pro酷爆了


满屏画风皆是:泰!酷!辣!


这回,Gemini的自我介绍里可以多一条了:首个成为宝可梦联盟冠军、登入《宝可梦蓝》名人堂的大模型。(doge)


大模型终于通关《宝可梦蓝》!网友:Gemini 2.5 Pro酷爆了


大模型终于通关《宝可梦蓝》!网友:Gemini 2.5 Pro酷爆了


要知道,一年前的旧模Claude 3.5还只能勉强走出新手村到达常磐森林,2个月前,Claude 3.7倒是终于能击败道馆主了,但也并未通关宝可梦。


Gemini 2.5 Pro通关宝可梦


游戏已通关,但直播仍继续。


画面是酱婶的:


大模型终于通关《宝可梦蓝》!网友:Gemini 2.5 Pro酷爆了


有一说一,过程看上去是有那么点无聊,因为每动一步Gemini都要深思熟虑……


左边的文本框里显示了Gemini每个行动背后的详细思考过程。


在上面这个片段中,Gemini的主要目标是探索华蓝洞穴,寻找和捕获超梦。


直播中可以看到,在完成了一长串行动,走到了目标位置之后,Gemini 2.5 Pro足足思考了40多秒,消耗76011个token,才开启下一步的行动规划。


大模型终于通关《宝可梦蓝》!网友:Gemini 2.5 Pro酷爆了


(因为有点迷路,Gemini后面还想了很久很久……)


不过从这些思考过程中,可以清晰地看到大模型是怎么理解宝可梦游戏的。


总结起来,Gemini玩宝可梦的基本步骤如下:


1.截取屏幕截图并检索游戏状态数据


2.用网格覆盖处理图像,以辅助空间推理


3.将屏幕截图和游戏信息发送给模型


4.AI决定是直接响应还是调用专门的智能体


5.解析响应内容,以确定按下哪个按钮


6.执行按钮按下操作,并等待游戏更新


7.对下一帧重复该过程


如果你对Gemini的宝可梦直播感兴趣,可以在twitch上搜索“gemini plays pokemon”,传送门我们也会在文末奉上~


宝可梦难在哪儿?


尽管已经是联盟冠军,但可以看出的是,在宝可梦这样一款最初主要面向儿童和青少年推出的游戏中,大模型的表现明显不如人类


(经常一整个大迷路什么的……)


参照Claude Plays Pokémon项目研究人员的说法,这主要是因为大模型“视力不佳”。


以Claude为例,模型很难像人类一样去解读Game Boy屏幕里展现出的低分辨率、像素化的世界。


同时,游戏中的二维地图看上去对未经专门训练的大模型而言也充满挑战性。


我们很容易理解(游戏中)的建筑物就是建筑物,是无法穿过的。


这对Claude来说却相当有挑战性。


大模型终于通关《宝可梦蓝》!网友:Gemini 2.5 Pro酷爆了


△图源:Anthropic


另外,模型上下文的限制也影响了它们在游戏中的表现。


不过,在游戏中偏文本的部分,此前Claude就已经有惊艳表现。


比如,在宝可梦对战中,当游戏提示电属性宝可梦的攻击对岩石属性对手“效果不佳”时,


Claude能马上get到其中的意思,并在此后将这些知识整合到自己的战斗策略里。


大模型终于通关《宝可梦蓝》!网友:Gemini 2.5 Pro酷爆了


现在,谷歌率先实现了新的突破,并表示还将在这个有趣的挑战中进行更多探索(直播将至少持续数天)。


或许真的像网友所说:


以后测试大模型的基准要变成谁能更快通关宝可梦了。


大模型终于通关《宝可梦蓝》!网友:Gemini 2.5 Pro酷爆了


直播地址:


https://www.twitch.tv/gemini_plays_pokemon


参考链接:


[1]https://x.com/sundarpichai/status/1918455766542930004


[2]https://arstechnica.com/ai/2025/03/why-anthropics-claude-still-hasnt-beaten-pokemon/


文章来自于微信公众号 “量子位”,作者 :鱼羊


大模型终于通关《宝可梦蓝》!网友:Gemini 2.5 Pro酷爆了

1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales

IOS下载
安卓下载
微信群
沪ICP备2023015588号