Codex-maxxing
这两天在赶工,鞭策 Codex 赶紧把 AGI Bar 的小程序弄出来,已经连续蹬了 80+ 小时了,预估再蹬 20 个小时就能蹬完

而作为背景,我发现主办方每次搞活动,最耗精力的并非活动本身,而是:
于是我灵机一动,脑洞大开,就想着把这些事儿全都 Agentic 化了:把没人想干的流程任务,都交付 Agent 全自动完成
在端午节的时候,就想着把这功能,给所有发生在 AGI Bar 的活动都用上:从预约活动场地,到结案报告&发票的全流程归结,都一条龙包了
于是,我外包 Claude Code 和 Claude Design 做了设计,然后把那个上万字的文档,外包给了 Codex;并任命飞书为司礼监总管,帮我监工

而我在这里的主要工作,就是搭环境和写 loop,感觉开发到了一个很诡异的程度:AI 会延续着我的需求,以每半小时一个版本的方式,不断提交新的、更好用的 feature
这种爽感,确实是来自长程任务的前所未有
而也是在今天,OpenAI 出了一份 Codex 的使用白皮书:
Codex-maxxing for long-running work
里面的很多思路,与我探索的非常接近,也便给大家翻译了下(由 Claude 提供翻译外包服务)

Codex 一开始就是干写代码这件事的。提 diff,改仓库,review 变更,帮你把代码推上去
但现在情况开始不一样了,受影响的不只是写代码的人

Codex 有了持久线程,有了共享记忆,能接工具,能定时跑,还有一个地方可以直接审查产出。这些东西凑齐之后,工作就不用卡在一个 prompt 里了
创作者 Jason Liu 把 Codex 当日常工具在用。演示文稿、会议记录、电子表格、浏览器操作、定时任务,都在里面跑

创作者 Jason Liu
这篇指南记的就是 Jason 怎么用 Codex:把上下文收进来,提要求,看产出,接着干下一步,全程不丢线索
重要的工作流,可以拿一个置顶线程当「家」。上下文、偏好、之前做过的决定、还没关掉的事项,全在这一个地方随时间慢慢攒起来
持久线程适合那些你会反复回来的工作

Codex 左侧边栏的置顶线程

持久线程保留完整的对话历史和 diff 记录
持久线程把历史对话留着,随着对话越来越长,内容会存进记忆库。但有代价:长线程攒的上下文多,跑起来可能比开一个新线程贵。对于重要的工作流,连续性通常值这个价
语音输入一加上,Codex 拿到的上下文就不一样了
好处不只是快。你说出来的东西往往是没修饰过的版本:名字记不太清,方向大概知道,有些地方拿不准,打字觉得不好意思写出来但说出来就很自然

语音输入界面,支持点按或长按录入
Jason 会一边在浏览器里翻 Agent 做出来的页面,一边录语音。录完按回车,Codex 就照着这些反馈去干了
会议记录也一样。一通电话,一场会,走廊里聊了两句,或者一段粗糙的语音备忘,都能当起始素材。Codex 帮你把这些粗的东西变成计划、草稿、产出物,或者下一步动作
很多计划之所以能变好,是因为模型拿到了你脑子里那个乱糟糟的版本
Jason Liu
语音和实时导航搭在一起更好用
Steering 说白了就是:Codex 正在跑的时候,你可以追加指令。纠正方向,补上下文,批准下一步,或者在一个工具调用结束后排上下一个动作

在 Codex 执行过程中追加指令
记忆是给行动提供上下文的笔记本。线程跑得越久,越需要对话之外的记忆。消息历史有用,但不够。有用的上下文应该变成你能打开、能编辑、能 diff、能反复用的东西

记忆库(vault)的目录结构和终端界面
记忆库放的是工作的滚动上下文:人,决定,没关掉的事项,每天的笔记,项目状态,那些不记下来就会在线程之间弄丢的细节
区分清楚:代码仓库放代码,记忆库放工作上下文
记忆库放在 GitHub 上的时候,diff 就成了记忆的审查面。你能看到 Codex 觉得什么值得记下来
线程有了记忆之后,下一个问题很实际:它能用什么?
Connector 把 Codex 伸到工作最先冒出来的地方:Slack 里的讨论,收件箱,日历,文档,Issue 追踪器
在迭代本地应用的时候,用浏览器。任务需要登录态或者多个认证标签页,用 Chrome。只能通过桌面应用完成的操作,用 computer use,权限和审查机制要设好

跨 Connector 指令:同时查 Calendar、Slack、Drive
Skills 让重复的活儿更容易复用。一个工作流跑通之后,把指令、参考资料和脚本打包起来,Codex 下次就不用从头学了
远程控制让你更容易盯住跑了很久的任务
Codex 在你的文件、权限和本地环境所在的那台机器上持续干活。你换一台设备签进来,看看它找到了什么,回答一个问题,批一下下一步,或者换个方向

Codex mobile,扫码连接手机
在桌前把任务启动。走开。用手机审查下一个决策点。批准,调方向,或者要求重来一版
Jason Liu
远程控制不是用来跳过审查的。它是一种保持注意力的方式,让循环里的下一步不被卡住
线程自动化是绑在当前线程上的定时唤醒。告诉 Codex 按固定节奏回到同一个对话里,上下文都还在,不用每次重头来
一个线程可以挂多个时间计划。可以跑到某个条件满足为止。频率可以随着任务变化调
盯的可以是一个 PR,一条 Slack 讨论,收件箱,一个部署,一份文档,一个客服工单,或者一个跑了很久的命令

每 30 分钟检查 Slack 和 Gmail,起草回复但不经批准不发
这套东西的力量在于循环:上下文 → 工具 → 记忆 → 复现 → 审查,然后回到上下文

Context → Tools → Memory → Recurrence → Review 闭环
Codex 按计划查 Slack 和 Gmail,找到可能需要注意的消息,查一下背后的上下文,起草回复。最后发什么,人来定

参谋长循环:Codex 准备消息、上下文、草稿,你来定批不批、语气、时机
Codex 盯一个 Slack 频道里的动画反馈,改 Remotion 项目,重新渲染,把改好的版本准备好等审查
这个循环跨了好几个工具:Slack 收反馈,Remotion 出渲染,上传或者审查需要 GUI 的时候切 computer use

反馈监控循环:Codex 准备反馈摘要和更新渲染,你来定创意判断和发布
Codex 盯着客服有没有加入对话,客服一回复就准备下一条回复
人不在的时候任务可以继续跑,但动作范围是有边界的

退款循环:每 5 分钟检查客服状态,客服回复后切到每分钟
弱目标让 Codex 去执行一个计划。强目标给 Codex 一个可以拿来测的东西:预期行为,审查标准,约束条件,或者一个清楚的完成定义
强目标:移植这个库,保持公开 API 兼容,拿原有的单元测试当验收标准。同样的测试跑过了,差异也记录了,才算可以提交审查
Rich 到 Rust 的移植案例把这个讲得很具体。目标不只是移植这个库,而是用一种能通过原有单元测试的方式去移植

Textualize/rich 仓库,目标是移植到 Rust 并通过原有测试
侧边面板很容易被当成一个预览窗口,但这低估了它。Codex 在这里从聊天界面变成了工作界面。你能在侧边面板里查看 Codex 正在操作的东西,留评论,审查改动,产出物就留在线程里

侧边面板:左侧对话,右侧实时渲染产出物
侧边面板是 Codex 从聊天应用变成「工作发生的地方」的转折点
Jason Liu
Jason Liu 的用法展示了一件事:Codex 搭工作系统的速度很快
有了这些推进项目的新方式,任务更容易拿起来、审查、接着干,上下文不会丢。花在重启上的时间少了,花在已有进展上的时间多了
原文来源:OpenAI 官方白皮书「Codex-maxxing for long-running work」
文章来自于"赛博禅心",作者 "金色传说大聪明"。
【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!
项目地址:https://github.com/coze-dev/coze-studio
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0