比闹钟还准。
端午节前,DeepSeek 不出所料又有了新动作:官方平台全量推送了识图模式,手机端 App 也发布了更新,打开就能看到。

此前,已经有不少网友体验过这个功能,但当时它还处在小范围的灰度测试阶段,只有部分用户能够在官方 App 或网页版里看到。但是今天下午,很多人都表示自己也能用了。
出于好奇,我们也打开 App 测试了一下。
第一个测试案例用了黄仁勋前段时间在北京小吃街喝豆汁的图片。可以看到,DeepSeek 能够认出图中人物是黄仁勋,但瓶身上的「豆汁」字样被忽略了,因此错把豆汁认成了牛奶。此外,它对于人物表情的解读也不够精准。


接下来,我们切换了深度思考模式,有意思的地方来了:虽然 DeepSeek 依然「看不清」瓶身上的「尹三豆汁」字样,但凭借推理能力和世界知识,他推断出了这是「豆汁」。不过,表情解读方面,深度思考也没有太大帮助。


在社交媒体上,也有不少网友进行了人物方面的测试,但效果似乎不太理想,像何同学等知名人物都出现了识别错误的现象。

就连梁文锋本人,DeepSeek 也没有认出来。从思考过程来看,它识别人物的时候主要依靠视觉线索(面部特征、发型)与人物公众形象进行对比,因此准确率不高也很正常,毕竟像黄仁勋那种特征如此独特的人物属于少数。

此外,它的安全限制比较严格 —— 我们试图上传一张雷军近日的热门图,却被告知「可能违反使用规范」。

接下来,我们又让它辨认潦草汉字。图片中的烂字有横线干扰、笔画粘连、还有错别字干扰。

DeepSeek 7 个字识别错了 4 个。
这说明,该模型在真实场景手写文本识别、领域词汇约束和语义纠错方面仍然有提升空间。

识别文物的能力倒是相当不错。虽然 DeepSeek 没能成功找到这件文物的出处,但成功地判断其是莫卧儿帝国风格,并详细分析了其工艺。

对于一些较难的图,比如找出下图中完全相同的袜子,DeepSeek 也没找对。(正确答案是第一行第三个和第三行第二个)

在钢琴和弦识别测试中,上传了一张钢琴弹奏实拍图,提问「弹的是什么和弦」。
钢琴黑键按「两黑 + 三黑」组规律排列,两黑键中间的白键永远是 D 音,从 D 出发即可推断出相邻的 C 和 E 等音高,因此正确答案应是 ACE。
DeepSeek 判断错误。

提示词来自X博主@thinkingshivers
我们同时测了 Gemini 3.5 flash、GPT 5.5 和 Claude Sonnet 4.6,前两者没一个答对的,Claude Sonnet 4.6直接罢工。这也说明这些大模型音在乐理方面的推理能力的局限。

Gemini 3.5 flash回答错误。

GPT 5.5回答错误。

Claude Sonnet 4.6罢工。
由于时间有限,我们的测试无法面面俱到,大家可以亲自尝试一下。
随着这个模式的全量发布,开发者们也有了新的疑问,比如它和 DeepSeek 4.1 有没有关系?背后技术是不是用的原生多模态?多模态的 API 又什么时候能上线?



这些问题出现在 DeepSeek 多模态团队研究者 Xiaokang Chen 的 X 贴文评论区。不过,他并没有就这些问题给出答案。
或许过几天,DeepSeek 会发布相关的技术文档,我们拭目以待。
文章来自于微信公众号 “机器之心”,作者 “机器之心”
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0