GLM-5.3你来定!智谱唐杰全球征集意见,评论区清一色:视觉

首页 AI资讯 AI技术研报 AI监管政策 AI产品测评 AI商业项目 arena全球大模型排行榜 AI产品热榜 AI 源力市场 AI新闻日报
下载 AITNT APP
🍎 iOS 下载 🤖 Android 下载

GLM-5.3你来定!智谱唐杰全球征集意见,评论区清一色:视觉
AI资讯 2026-06-30 15:42
+9027 阅读

最近,清华教授、智谱灵魂人物唐杰聊得有点high。


昨天先是畅聊AI认知,“AI的终局就是AGI,一场猎龙游戏”。引起广泛热议后,一觉醒来今天又在𝕏当众征集意见:


各位!下个版本的GLM,你想要啥?


GLM-5.3你来定!智谱唐杰全球征集意见,评论区清一色:视觉


浏览量瞬间干到了40w+,这影响力真够顶的!


不过要说网友们为啥这么捧场,还得倒回去年GLM-4.6刚开源那会儿。


彼时唐杰也问过这么一回,评论区纷纷热情支招,一条条需求后来陆陆续续都在GLM后续版本中有所实现。


真·有求必应·阿拉丁。


所以这次他一张口,懂行的人立马团建去了~有po自己痛点的,也有智谱自家员工在下面留言。


比如这位网友直接列出了自己的愿望清单:更强的Agent能力、超长上下文保持质量、更灵活的API……


GLM-5.3你来定!智谱唐杰全球征集意见,评论区清一色:视觉


更有甚者诚恳祈祷:求你了GLM!做一个类似Codex的桌面应用!!


GLM-5.3你来定!智谱唐杰全球征集意见,评论区清一色:视觉


有趣的是,这次GLM-5.3的评论区,刷得最多的还是——


视觉!


GLM-5.3你来定!智谱唐杰全球征集意见,评论区清一色:视觉


GLM的视觉之痛


两周前,智谱刚刚开源GLM-5.2


强到离谱!开源界AI编程第一、全球第二,仅屈居于大名鼎鼎的神话级模型Fable-5。


GLM-5.3你来定!智谱唐杰全球征集意见,评论区清一色:视觉


但要说痛点,很明显,也是真的痛:


没视觉啊……


纯文本模型,搞得动百万Token超长上下文和深度逻辑推理,但偏偏没搭载视觉编码器,看不了图也造不出图。


反观拿来对标的Fable-5,它是原生多模态模型,视觉能力应有尽有。


于是GLM用户双双流下羡慕的泪水:我也想拥有TT


GLM-5.3你来定!智谱唐杰全球征集意见,评论区清一色:视觉


而且关键在于,不是智谱做不出视觉。恰恰相反,今年4月智谱发过一个叫GLM-5V-Turbo的模型。


原生多模态的Coding基座,从预训练阶段就把视觉和文本揉在一起,能看懂设计稿、截图、网页界面,然后直接吐出能跑的代码,主打视觉+代码+Agent一体化。


再往前看,智谱也做过不少多模态模型,CogVLM视觉编码器就出自他们之手。唐杰本人发表过的视觉论文,更是一抓一大把。


所以问题压根不是有没有视觉能力,而是智谱没把视觉放进最强旗舰模型中去。


这一点从唐杰过往的发言中也可见一斑,比如去年底的大模型年终总结,他先是肯定多模态是未来


但随即他又补刀道:


问题是,当下的多模态对提升AGI的智能上界,帮助有限。可能最有效的方式还是分开发展,文本、多模态、多模态生成。当然适度的探索这三者的结合肯定能发现一些很不一样的能力,但这需要勇气和雄厚的资本支持。


你品,你细品。


唐杰这种冲在AI一线的科学家,盯着的始终还是第一性原理——模型智能。视觉可以让模型更好用,但要让模型更聪明,靠的还是复杂推理那套硬功夫。


这就是用户和厂商的视角差异。


AGI对于用户太遥远了,所以用户更在乎的是,眼下贴张图模型能不能接住、截个屏模型能不能看懂。


于是就出现了这条推文里最微妙的拉扯。一边是科学家盯着智能的天花板,觉得视觉只是锦上添花;一边是全世界的开发者都在齐刷刷呼喊视觉。


更何况,对手也来势汹汹


Kimi K2.5今年1月就是原生多模态了,Qwen3.5-Omni三月份端到端把文本/图像/音频/视频全统一进一个模型,更别说国际上Gemini 3那种原生文图音视频一把抓的。


GLM旗舰款补足视觉,几乎是迫在眉睫。且等接下来端上桌的GLM-5.3


One More Thing


最后再看看唐杰最近的一些分享吧,还挺值得琢磨的。


(其一)


GLM-5.3你来定!智谱唐杰全球征集意见,评论区清一色:视觉


(其二)


GLM-5.3你来定!智谱唐杰全球征集意见,评论区清一色:视觉


(其三)


GLM-5.3你来定!智谱唐杰全球征集意见,评论区清一色:视觉


(其四)


GLM-5.3你来定!智谱唐杰全球征集意见,评论区清一色:视觉


参考链接:
[1]https://x.com/jietang/status/2071454597521215748?s=20
[2]https://x.com/ZixuanLi_/status/2071491673511674059?s=20
[3]https://m.weibo.cn/status/5247011059141988


文章来自于"量子位",作者 "鹭羽"。

1
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案