OpenAI的「看图思考」被玩坏了!我把工位照片给 o3 ,隐藏属性都被扒出来……

搜索
AI-TNT
正文
资源拓展
OpenAI的「看图思考」被玩坏了!我把工位照片给 o3 ,隐藏属性都被扒出来……
2025-04-18 16:08

知道大模型接下来要卷视觉推理,但没想到这么卷——数学试卷都快要不够用了。


常看推理小说的朋友们都知道:推理也分不同的类型,有专注于逻辑的,也有演绎类的。


既然 GPT 都更新到 o3了,还加入了图片推理,那就都-得-有。


逻辑推理,但视觉版


视觉推理并不新鲜,各家都在做。这讲究得不仅仅是从图片中识别元素,还得理解这些元素,并且进一步沿用到与用户的交互、解决工作任务中。


在 o3 之前,Gemini 2.5 在视觉推理上有非常惊人的表现,我们之前也有过测评,速测了一下 o3 的识图能力。


不过凌晨刚发布的时候,o3 可能没睡醒,一个简单的武康大楼认不出来。等到下午再测,「智力」就恢复了。


OpenAI的「看图思考」被玩坏了!我把工位照片给 o3 ,隐藏属性都被扒出来……


同时还引用了外链,保证了核查环节。这种识图能力还是很实用的,比如我们做了两个验证码识别。


OpenAI的「看图思考」被玩坏了!我把工位照片给 o3 ,隐藏属性都被扒出来……


之前爆火的 Manus 以及同类型的通用型 Agent 产品,可以实现自主通过验证码,现在这是一个应用潜力比较大的能力。


不过,在大模型流行之前,传统搜索引擎也可以完成识图的工作。验证码、识图这种小 case,不太能准确反应 o3 的能力。


于是我们找了真-图形推理题:2021 年国家公务员考试模拟考题。


OpenAI的「看图思考」被玩坏了!我把工位照片给 o3 ,隐藏属性都被扒出来……


建议想考公的朋友们,都别直接滑下去,先自己做一做。这样的图形题,考察的是归纳推理的能力,即根据已有的内容推断出下一步。


果然真题就是不一样,o3 的推理超过了六分钟,思维链长达 5 千字,不仅有图片推理,还结合了代码帮助它自己理解。


OpenAI的「看图思考」被玩坏了!我把工位照片给 o3 ,隐藏属性都被扒出来……


然后水灵灵地答错了——正确答案是 D,每个图形都有且只有一个封闭区域,故选 D。o3 想了一大堆,最终错选了 C


OpenAI的「看图思考」被玩坏了!我把工位照片给 o3 ,隐藏属性都被扒出来……


虽然题目答错了,不过能看出来 o3 的确如所承诺的那样,推理是基于图片素材进行的。


这种归纳推理的方式,有什么实用价值吗?——可大了,这下可以用 AI 对狙 AI。


这一阵在小红书上流行的「极其平庸的 AI 图」挑战,里面都是晃动的镜头、模糊的焦点,「仿佛从口袋中掏出手机时意外按下快门拍下的」。


OpenAI的「看图思考」被玩坏了!我把工位照片给 o3 ,隐藏属性都被扒出来……


OpenAI的「看图思考」被玩坏了!我把工位照片给 o3 ,隐藏属性都被扒出来……


OpenAI的「看图思考」被玩坏了!我把工位照片给 o3 ,隐藏属性都被扒出来……


老实说就上面这些个图,也太难以怀疑了。AI 检测 AI 生成文本很常见了,现在也可以让它检测 AI 图片。


o3 说,它懂 GAN 生成对抗网络,它还懂分析 EXIF,它可以来总结归纳 AI 图片的特点。


OpenAI的「看图思考」被玩坏了!我把工位照片给 o3 ,隐藏属性都被扒出来……


有几分道理。可以看到它的推理分析方式是转换成代码语言——在面对纯逻辑推理的时候,几乎都会转换成代码语言。比如下面这个迷宫解题:


OpenAI的「看图思考」被玩坏了!我把工位照片给 o3 ,隐藏属性都被扒出来……


在这个迷宫问题中,o3 考虑使用 PIL、numpy 和 skimage 来进行形态学处理,并且编写了 python 来解决。


基本上,这等于是在 ChatGPT 的对话窗口里调用不同的工具来辅助。


OpenAI的「看图思考」被玩坏了!我把工位照片给 o3 ,隐藏属性都被扒出来……


迷宫对 o3 的挑战非常大,推理时间去到了 2 分钟,效果也比较一般:最后试图生成的路径解法,但是一条无法点击的空连接。


再给其它的迷宫题,o3 同样转化成代码语言来理解。不过,这题它也没有解出来,而且直接弃赛了。


OpenAI的「看图思考」被玩坏了!我把工位照片给 o3 ,隐藏属性都被扒出来……


总结一下:在归纳推理方面,o3 通过识别视觉元素、总结图片特点,并且调用外部工具,进行比对识图,这些能力都覆盖了。


准确率和响应都有待提升,尤其是推理时间久、思维链条长,最后还是错误答案的话,换哪个用户都要不开心的。


基本演绎法,但 AI 版


除了归纳型推理,还有演绎推理。这需要 AI 综合上述所有的能力,并且有一点「发散思维」。


这是相当让人兴奋的部分,我们设计了一套「看工位,猜 MBTI」的挑战活动,交给 o3。


结果相当有意思,虽然到底是 I 人还是 P 人,工位未必能完全体现出来——但这不就是 o3 要挑战的吗?


接下来奉上内容部门同事们的桌面,以及 o3 对他们的「判定」。


【P人主编】


OpenAI的「看图思考」被玩坏了!我把工位照片给 o3 ,隐藏属性都被扒出来……


OpenAI的「看图思考」被玩坏了!我把工位照片给 o3 ,隐藏属性都被扒出来……


主编的 P 属性非常明显,还非常 P 得非常稳定,桌面两年没有变化,这点 o3 都发现了:不太花时间收拾。


【J人社媒编辑】


OpenAI的「看图思考」被玩坏了!我把工位照片给 o3 ,隐藏属性都被扒出来……


OpenAI的「看图思考」被玩坏了!我把工位照片给 o3 ,隐藏属性都被扒出来……


社媒编辑的桌面由于过于系统、技术含量过高,触发了 o3 调用代码工具——好可怕的 J 人。


OpenAI的「看图思考」被玩坏了!我把工位照片给 o3 ,隐藏属性都被扒出来……


【P人实习生】


实习生的桌面东西不多但信息量不少,尤其是显示屏上贴了一串小纸条,原以为是便利贴,结果全是奶茶标……


这触发了 o3 的「逐 part 分解」,每一个细节都放大来看。不过,这样的触发并不是每次都能出现,暂时还没有看到明确的触发方式。


OpenAI的「看图思考」被玩坏了!我把工位照片给 o3 ,隐藏属性都被扒出来……


OpenAI的「看图思考」被玩坏了!我把工位照片给 o3 ,隐藏属性都被扒出来……


OpenAI的「看图思考」被玩坏了!我把工位照片给 o3 ,隐藏属性都被扒出来……


【P人硬件及影像编辑】


工位主人表示 o3 判错了,他明明是 P 人——只是没有反映在工位布置上。只能说 GPT 有时比人更了解人自己。


OpenAI的「看图思考」被玩坏了!我把工位照片给 o3 ,隐藏属性都被扒出来……


OpenAI的「看图思考」被玩坏了!我把工位照片给 o3 ,隐藏属性都被扒出来……


【J人汽车编辑】


OpenAI的「看图思考」被玩坏了!我把工位照片给 o3 ,隐藏属性都被扒出来……


添加图片注释,不超过 140 字(可选)



OpenAI的「看图思考」被玩坏了!我把工位照片给 o3 ,隐藏属性都被扒出来……


在 prompt 中,我们没有规定 o3 的返送方式,不过每次它都会拉成表格,结合 MBTI 的不同维度,分点给出线索和相对应的推理。


总结一下:演绎推理是 o3 颇为让人兴奋的地方。尤其是思维链打开,可以看到针对不同的案例,调用不同的工具和方式。


明显可以看到「agent」思维,直接应用在了 ChatGPT 当中。这是是本次大版本更新中,除了模型的基础能力之外,最让人兴奋的地方。


整体上是一个可玩性非常高的版本,尤其是图片推理的潜力,相当值得期待。但是用图片推理来搞赛博开盒什么的,完全不可以啊喂!


文章来自于微信公众号“APPSO”,作者 :APPSO


OpenAI的「看图思考」被玩坏了!我把工位照片给 o3 ,隐藏属性都被扒出来……

1
OWL

【开源免费】OWL是一个完全开源免费的通用智能体项目。它可以远程开Ubuntu容器、自动挂载数据、做规划、执行任务,堪称「云端超级打工人」而且做到了开源界GAIA性能天花板,达到了57.7%,超越Huggingface 提出的Open Deep Research 55.15%的表现。

项目地址:GitHub:https://github.com/camel-ai/owl

2
OpenManus

【开源免费】OpenManus 目前支持在你的电脑上完成很多任务,包括网页浏览,文件操作,写代码等。OpenManus 使用了传统的 ReAct 的模式,这样的优势是基于当前的状态进行决策,上下文和记忆方便管理,无需单独处理。需要注意,Manus 有使用 Plan 进行规划。

项目地址:https://github.com/mannaandpoem/OpenManus


3
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

4
AI搜索

【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架,其性能可与 Perplexity和ChatGPT-Web相媲美。

项目地址:https://github.com/InternLM/MindSearch

在线使用:https://mindsearch.openxlab.org.cn/


【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费,搜索结果包含文本,图片,视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目,测试搜索结果最好。

项目地址:https://github.com/miurla/morphic/tree/main

在线使用:https://www.morphic.sh/

5
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0

IOS下载
安卓下载
微信群
沪ICP备2023015588号