哈喽,大家好,我是刘小排。
前几天我们讨论过一个观点:自从2026年Q2起,未来人类所谓的“编程工作”其实比拼的是「谁能一次性把“什么叫完成”定义清楚」
“定义清楚”是什么感觉呢?
就是,当你写完需求文档和验收标准后(可能要花几小时,甚至几天),你就能Codex自己执行、自己优化、直到完成全部验收标准。当它宣布“完成”的时候,你进行验收,发现完完全全就是你想要的。
例如, 我一个正在进行的任务,已经跑了22小时了,我估计还需要20小时左右。
如果想知道22小时到底在干啥,文末有更多截图。

我们继续。
写到这里,我发现,所谓“定义清楚”,并没有那么容易,
它至少应该包括:
列表可以还可以继续扩展下去。
我想表达是:虽然AI看上去无所不能,但是互联网企业在过去二十年总结出来的做产品的流程、技术架构、方法论、组织和协同、内功,从来都没有变过。
可怕的是,很多人并不了解这一点。他们只会抱怨:
“AI太笨了”
“我明明说清楚了,AI就是做不出来”
“我都说了一万次了”
“为什么还是很丑?”
……
在AI时代,最可怕是你“不知道自己不知道”。
当你懂得原理时,你的定义就是一个严密的契约,每一个约束项都是基于物理现实和逻辑推演的;
当你不懂原理时,你的定义就是一张概率性的彩票,你只能祈祷AI的随机采样刚好落在了你想要的那个区间,你只是在“许愿”(俗称“抽卡”)。
因此,我想邀请你参与这个小游戏,也许可以用于自测「 能一次性把“什么叫完成”定义清楚 」的能力 ——
试试看,你能让Codex在一个任务里跑多久、并且一次性出来的正好就是你想要的?
在最开始展示的截图里,为什么我的Codex能够连续干活几十个小时?
因为它在根据我们预先确定的标准,不断测试、评估、改进自己的的工作,周而复始,不达目标不罢休。
下面是其中一部分的过程截图,Codex正在把某个指标从原始的46分提升到了100分。


欢迎参与比赛!
请在评论区贴出来图:你的Codex一个任务跑了多久? (前提:出来的东西正好是你想要的)
文章来自于"刘小排r",作者 "刘小排r"。