你的Codex一个任务能跑多久？

你的Codex一个任务能跑多久？

AI资讯 2026-06-10 10:31

+10560 阅读

哈喽，大家好，我是刘小排。

前几天我们讨论过一个观点：自从2026年Q2起，未来人类所谓的“编程工作”其实比拼的是「谁能一次性把“什么叫完成”定义清楚」

一问一答式的Vibe Coding的时代已经结束

“定义清楚”是什么感觉呢？

就是，当你写完需求文档和验收标准后（可能要花几小时，甚至几天），你就能Codex自己执行、自己优化、直到完成全部验收标准。当它宣布“完成”的时候，你进行验收，发现完完全全就是你想要的。

例如，我一个正在进行的任务，已经跑了22小时了，我估计还需要20小时左右。

如果想知道22小时到底在干啥，文末有更多截图。

你的Codex一个任务能跑多久？

我们继续。

写到这里，我发现，所谓“定义清楚”，并没有那么容易，

它至少应该包括：

底层逻辑的拆解 你不仅是在描述一个功能，更是在定义数据流转的确定性。
技术边界与异常路径的闭环 你要预判技术实现时的物理极限。如果你不懂网络协议的重试机制，或者不懂内存管理的泄漏风险，你根本无法定义“系统在极端弱网下的鲁棒性”具体指什么。
性能与成本的硬约束定义 只有当你懂技术实现的轻重缓急，才能在定义中写明：是在毫秒级响应下追求极致性能，还是在有限资源下寻找平衡点。
验证逻辑的可复现性标准 定义“完成”最难的部分是定义“如何证明它完成了”。如果你不懂单元测试、集成测试或压力测试的技术底座，你给出的验收标准就会是模糊的“感觉好用”。你必须懂什么叫接口的幂等性，什么叫原子化操作，才能在定义中给出AI无法回避、且必须硬性达标的验证指标。
语义歧义的技术消融 很多时候你觉得说清楚了，其实只是在用文学修辞替代技术语言。真正的清晰是基于技术概念的共识。如果你不懂什么是解耦、什么是异步、什么是序列化，你描述的需求就会充满逻辑漏洞。
人性与心理，“体验直觉” 只有当你懂心理学原理，才能在定义中写清楚：什么叫“流畅的交互体验”，什么叫“克制的广告展示”。如果你自己不懂美的标准和人性弱点，你给出的验收标准就会极其生硬，导致AI交付的产品虽然“能用”，但却“难用”。
商业价值的“北极星”锚定。 AI能够高效执行任务，但它并不理解“为什么要赚钱”或“为什么要省钱”。定义清楚意味着你必须洞悉业务的底层盈利模式或核心增长引擎。
组织语境下的“共识边界” 在一个复杂的系统里，任何任务都不是孤立存在的。
……

列表可以还可以继续扩展下去。

我想表达是：虽然AI看上去无所不能，但是互联网企业在过去二十年总结出来的做产品的流程、技术架构、方法论、组织和协同、内功，从来都没有变过。

可怕的是，很多人并不了解这一点。他们只会抱怨：

“AI太笨了”

“我明明说清楚了，AI就是做不出来”

“我都说了一万次了”

“为什么还是很丑？”

……

在AI时代，最可怕是你“不知道自己不知道”。

当你懂得原理时，你的定义就是一个严密的契约，每一个约束项都是基于物理现实和逻辑推演的；

当你不懂原理时，你的定义就是一张概率性的彩票，你只能祈祷AI的随机采样刚好落在了你想要的那个区间，你只是在“许愿”（俗称“抽卡”）。

因此，我想邀请你参与这个小游戏，也许可以用于自测「能一次性把“什么叫完成”定义清楚」的能力 ——

试试看，你能让Codex在一个任务里跑多久、并且一次性出来的正好就是你想要的？

在最开始展示的截图里，为什么我的Codex能够连续干活几十个小时？

因为它在根据我们预先确定的标准，不断测试、评估、改进自己的的工作，周而复始，不达目标不罢休。

下面是其中一部分的过程截图，Codex正在把某个指标从原始的46分提升到了100分。

你的Codex一个任务能跑多久？

你的Codex一个任务能跑多久？

欢迎参与比赛！

请在评论区贴出来图：你的Codex一个任务跑了多久？（前提：出来的东西正好是你想要的）

文章来自于"刘小排r"，作者 "刘小排r"。

添加客服微信openai178，进AITNT官方交流群