在人与AI高度协同的时代,只有大量复杂UI界面的应用将会被淘汰。
大神Karpathy给出了对于应用程序未来的预言,并特别点名Adobe、CAD将首当其冲。
△ ngmi是not gonna make it的缩写
这样说的原因,Karpathy解释,只有复杂的UI界面而不提供文本交互,就无法和大模型形成有效的人机协同。
换言之,这类软件没办法满足准专业用户的“氛围式编程”需求。
按照应用当中UI和文本含量的不同,Karpathy还给一些常见的应用划分出了四个“风险等级”。
其中提到的部分软件,长这样:
Karpathy还补充,虽然AI在UI界面操作上也会取得进步,但开发者如果守株待兔,照样不会有好的发展。
Karpathy的这番犀利言论,一经发出就引发了广泛的讨论。
支持者Karpathy的人表示,仅仅依赖复杂的可视化UI,而没有可脚本化的后端的产品,本质上是在筑起高墙,阻挡AI的浪潮。
还有人表示,现在Agent的水平已经与人类相当,所以软件开发者要同时考虑人类和AI,甚至是只考虑AI。
看到有人如此强调后端接口的地位,有网友直接给出灵魂拷问——
UI界面到底还值不值得做?
有人解释,使用文本交互不等于消灭UI,但UI应当构建在“文本”之上,能够在用户交互操作和文本之间形成一种转换机制。
反对Karpathy观点的人则认为,Karpathy提到的几个“高风险示例”(Photoshop、CAD等)本身都是面向专业用户的,甚至专门有学校教授这些软件的使用。
在他看来,这些应用与普通的软件不可同日而语,苹果同时保留Logic Pro和Garage Band(都是音乐创作软件)也是这个原因。
还有人认为,VSCode等(以文本交互形式的)应用并非适合所有人,那既然总要有一个适应,为什么不能让AI来适应人类的操作方式呢?
但无论支持还是反对,想要让应用程序和AI之间更好协作,人们可能还需要更加规范的语言和软件框架。
同一天,Karpathy还发了另一则推文,讨论了“验证差距”(verification gap)。
这则推文是在其他博主帖子的基础之上进行补充的,原帖内容大概是这么说的:
研究人员必须对AI生成内容的相关知识足够了解,才能判断是否正确,这就是针对评估和幻觉有大量研究的原因,但是“验证是人工智能用户瓶颈”这一概念,尚未得到充分讨论。
他还表示自己非常支持Karpathy提出“氛围式编程”,但同时也认为AI的纯文本输出非常难以验证。
Karpathy称这是一篇“非常好的帖子”,然后借用了GAN的工作过程补充说,几乎所有创造性工作中,生成和判别这两个阶段都是交替进行的。
而判别的过程,的确在不同创作媒介中难度不同,具体来说,Karpathy认为图像最容易,文本更难,最难的则可能是音频。
进一步地,Karpathy批判了现在大模型编程中“重生成轻判别”的模式:
你可以说,在编程中,大模型已经几乎将生成阶段压缩到了即时的程度,但在“判别阶段上几乎没有任何改进。
人仍然需要盯着结果,判断它们是否正确。
这正是我对LLM编程最大的批评:它们总是随意输出大量代码,复杂程度不一,仿佛第二阶段(验证)根本不存在一样。
得到这么多代码并不是好事,反而令人畏惧。
最后,Karpathy又补充,非专业人士实际上对编程工作也存在认知偏差。
Karpathy说,非专业人士以为编程就是写代码,但其实不是,编程的本质实际上是盯着代码看,类似大模型的判别过程。
如果只是让“写”代码变得更快,却没有减少“思考代码”的负担,那整体编程速度显然不会有明显提升。
而Karpathy自己也在研发一种AI辅助编程工作流,其中一项关键工作就是减少验证负担。
在回复当中,Karpathy认同将文本视觉化是一种可行的方式,但像目前Cursor当中的视觉形式非常糟糕,他设想将整个代码库布局在二维画布上,让程序员可以通过各种“镜头”来查看代码。
话说回来,你认为未来的应用,应该是什么样子的呢?
参考链接:
[1]https://x.com/karpathy/status/1930354382106964079
[2]https://x.com/karpathy/status/1930305209747812559
文章来自于“量子位”,作者“克雷西”。
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md