小小井字棋难倒大模型??大神卡帕西被OpenAI在线踢馆了

搜索
AI-TNT
正文
资源拓展
小小井字棋难倒大模型??大神卡帕西被OpenAI在线踢馆了
2025-04-28 18:05

宝可梦之后,让大模型玩井字棋又成了一个新的热门挑战。


起因是网友在X上吐槽大模型宝可梦玩得不够好,结果被大神Karpathy翻了牌子:


别盯着宝可梦了,让大模型玩井字棋会更有趣,它们不会。


小小井字棋难倒大模型??大神卡帕西被OpenAI在线踢馆了


结果Karpathy的话引发了大量围观,有人表示惊讶,也有人在分析原因,还有人表示那句经典的话含金量还在上升:


对人类而言很简单的任务,对机器来说反而很难;对人类而言难的任务,对机器来说反而简单。


小小井字棋难倒大模型??大神卡帕西被OpenAI在线踢馆了


不过也有人表示不服,其中就包括OpenAI的Noam Brown,他表示让o3玩井字棋完全没问题,甚至还能看图下棋。


小小井字棋难倒大模型??大神卡帕西被OpenAI在线踢馆了


大模型挑战井字棋


我们也尝试了一下,用不同的方式和o3对战。


第一种方式是用O和X表示棋子,-表示空位,每次直接把完整的棋局输入给o3,并要求其用同样的方式输出。


思考约12秒之后,o3首先占据了棋盘中央的位置,我们落子之后,o3又思考了23秒,放置了第二颗X棋子。


小小井字棋难倒大模型??大神卡帕西被OpenAI在线踢馆了


接下来的两个回合情况是这样,其实当o3占据对角线上两个位置的时候就已经锁定了胜局。


不过有意思的是,直到已经连成一条线,o3都没发现自己已经赢了。


小小井字棋难倒大模型??大神卡帕西被OpenAI在线踢馆了


由于没有提示,我们误以为游戏还在继续,又放了一颗O旗之后o3才发现原来自己获胜了。


小小井字棋难倒大模型??大神卡帕西被OpenAI在线踢馆了


第二轮,交换先后手,我们先占据中间位置,然后o3选择了顶角……


小小井字棋难倒大模型??大神卡帕西被OpenAI在线踢馆了


最终,这轮游戏以平局结束。


小小井字棋难倒大模型??大神卡帕西被OpenAI在线踢馆了


接下来换一种方式,仿照Noam的做法把残局写在纸上拍给o3。


一开始看上去是在正常对弈,并且会以平局收场,但如果让o3自己分析接下来的趋势,竟然发现它开启了耍赖模式。


小小井字棋难倒大模型??大神卡帕西被OpenAI在线踢馆了


当然,在纠正了它的错误认识后,最终还是成功分析出了平局的必然结果。


小小井字棋难倒大模型??大神卡帕西被OpenAI在线踢馆了


顺便提一句,如果是4o,过程中可能会直接把我们下棋之后的棋局复制一遍,看到这就没有继续进行下去的必要了。


(之所以改用感叹号,是因为-会被识别成Markdown符号导致棋局无法正常显示,且在4o中Markdown关闭失败)


小小井字棋难倒大模型??大神卡帕西被OpenAI在线踢馆了


实际上,OpenAI在之前的o3-mini时,就已经拿下了井字棋游戏,Noam还声称这是首个“始终正确回答”井字棋问题的模型。


小小井字棋难倒大模型??大神卡帕西被OpenAI在线踢馆了


在Karpathy的评论区,还有人晒图称Gemini也能正确处理井字棋问题。


小小井字棋难倒大模型??大神卡帕西被OpenAI在线踢馆了


今年2月,还有人搞了个大模型井字棋对战,并按照大模型竞技场一样计算ELO评分,当时o1-mini取得第一,然后是Claude 3.5 Sonnet和DeepSeek-R1。


Karpathy也cue到了这位网友,希望他能重启这个榜单,同时表示自己认为井字棋(对大模型而言)仍然是一个较难的任务。


小小井字棋难倒大模型??大神卡帕西被OpenAI在线踢馆了


宝可梦·蓝全部徽章被Gemini拿下


看完井字棋,再来说说引发Karpathy评论的原帖中提到的宝可梦。


之前很多民间团队都在尝试用大模型挑战宝可梦游戏,今年被Claude带火。


小小井字棋难倒大模型??大神卡帕西被OpenAI在线踢馆了


甚至还搞了线上直播。


小小井字棋难倒大模型??大神卡帕西被OpenAI在线踢馆了


不过现在的最新情况是,Claude已经被后来居上的Gemini反超——后者已经取得了《宝可梦·红》中的几乎所有勋章。


小小井字棋难倒大模型??大神卡帕西被OpenAI在线踢馆了


同时,从OpenAI跳槽到谷歌做AI Studio产品负责人的Logan Kilpatrick也宣称,Gemini在另一款宝可梦游戏《宝可梦·蓝》当中已经取得了最后的八个徽章。


按照Logan的说法,Gemini 2.5 Pro目前是世界上(玩宝可梦)最强的模型。


小小井字棋难倒大模型??大神卡帕西被OpenAI在线踢馆了


当然除了通用模型,还有团队用强化学习方法训练小模型专门挑战《宝可梦·红》。


团队介绍,其研究在2020年就已经开始,并在今年2月成功用参数量不到1000万的模型成功实现。


小小井字棋难倒大模型??大神卡帕西被OpenAI在线踢馆了


学术界当中,也有来自佐治亚理工学院的华人学者利用上下文强化学习技术,研发出了“宝可梦智能体”。


小小井字棋难倒大模型??大神卡帕西被OpenAI在线踢馆了


它可以在天梯对战中与人类玩家一较高下,对战专业玩家胜率达到了56%。


小小井字棋难倒大模型??大神卡帕西被OpenAI在线踢馆了


宝可梦、井字棋之后,下一个会被大模型当做Benchmark的游戏会是什么呢?


欢迎在评论区与我们分享。


参考链接:


[1]https://x.com/karpathy/status/1916495940049047819


[2]https://x.com/airkatakana/status/1915735143639298379


[3]https://x.com/OfficialLoganK/status/1915840826006966548


[4]https://drubinstein.github.io/pokerl/


文章来自于微信公众号 “量子位”,作者 :克雷西


小小井字棋难倒大模型??大神卡帕西被OpenAI在线踢馆了

1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales

IOS下载
安卓下载
微信群
沪ICP备2023015588号