如何使用 Codex，进行长程任务

AI技术研报 2026-06-23 16:46

+7390 阅读

Codex-maxxing

这两天在赶工，鞭策 Codex 赶紧把 AGI Bar 的小程序弄出来，已经连续蹬了 80+ 小时了，预估再蹬 20 个小时就能蹬完

如何使用 Codex，进行长程任务

而作为背景，我发现主办方每次搞活动，最耗精力的并非活动本身，而是：

准备一堆不同尺寸的物料
签合同、打报告、提申请、做备案
活动完成后，制作汇报材料、结案报告

于是我灵机一动，脑洞大开，就想着把这些事儿全都 Agentic 化了：把没人想干的流程任务，都交付 Agent 全自动完成

在端午节的时候，就想着把这功能，给所有发生在 AGI Bar 的活动都用上：从预约活动场地，到结案报告&发票的全流程归结，都一条龙包了

于是，我外包 Claude Code 和 Claude Design 做了设计，然后把那个上万字的文档，外包给了 Codex；并任命飞书为司礼监总管，帮我监工

如何使用 Codex，进行长程任务

而我在这里的主要工作，就是搭环境和写 loop，感觉开发到了一个很诡异的程度：AI 会延续着我的需求，以每半小时一个版本的方式，不断提交新的、更好用的 feature

这种爽感，确实是来自长程任务的前所未有

而也是在今天，OpenAI 出了一份 Codex 的使用白皮书：

Codex-maxxing for long-running work

里面的很多思路，与我探索的非常接近，也便给大家翻译了下（由 Claude 提供翻译外包服务）

如何使用 Codex，进行长程任务

Codex 一开始就是干写代码这件事的。提 diff，改仓库，review 变更，帮你把代码推上去

但现在情况开始不一样了，受影响的不只是写代码的人

如何使用 Codex，进行长程任务

Codex 有了持久线程，有了共享记忆，能接工具，能定时跑，还有一个地方可以直接审查产出。这些东西凑齐之后，工作就不用卡在一个 prompt 里了

创作者 Jason Liu 把 Codex 当日常工具在用。演示文稿、会议记录、电子表格、浏览器操作、定时任务，都在里面跑

如何使用 Codex，进行长程任务

创作者 Jason Liu

这篇指南记的就是 Jason 怎么用 Codex：把上下文收进来，提要求，看产出，接着干下一步，全程不丢线索

01 持久线程

重要的工作流，可以拿一个置顶线程当「家」。上下文、偏好、之前做过的决定、还没关掉的事项，全在这一个地方随时间慢慢攒起来

持久线程适合那些你会反复回来的工作

如何使用 Codex，进行长程任务

Codex 左侧边栏的置顶线程

持久线程的复利效应

如何使用 Codex，进行长程任务

持久线程保留完整的对话历史和 diff 记录

持久线程把历史对话留着，随着对话越来越长，内容会存进记忆库。但有代价：长线程攒的上下文多，跑起来可能比开一个新线程贵。对于重要的工作流，连续性通常值这个价

02 语音输入

语音输入一加上，Codex 拿到的上下文就不一样了

好处不只是快。你说出来的东西往往是没修饰过的版本：名字记不太清，方向大概知道，有些地方拿不准，打字觉得不好意思写出来但说出来就很自然

如何使用 Codex，进行长程任务

语音输入界面，支持点按或长按录入

Jason 会一边在浏览器里翻 Agent 做出来的页面，一边录语音。录完按回车，Codex 就照着这些反馈去干了

会议记录也一样。一通电话，一场会，走廊里聊了两句，或者一段粗糙的语音备忘，都能当起始素材。Codex 帮你把这些粗的东西变成计划、草稿、产出物，或者下一步动作

很多计划之所以能变好，是因为模型拿到了你脑子里那个乱糟糟的版本

Jason Liu

03 实时导航

语音和实时导航搭在一起更好用

Steering 说白了就是：Codex 正在跑的时候，你可以追加指令。纠正方向，补上下文，批准下一步，或者在一个工具调用结束后排上下一个动作

如何使用 Codex，进行长程任务

在 Codex 执行过程中追加指令

04 记忆

记忆是给行动提供上下文的笔记本。线程跑得越久，越需要对话之外的记忆。消息历史有用，但不够。有用的上下文应该变成你能打开、能编辑、能 diff、能反复用的东西

如何使用 Codex，进行长程任务

记忆库（vault）的目录结构和终端界面

记忆库放的是工作的滚动上下文：人，决定，没关掉的事项，每天的笔记，项目状态，那些不记下来就会在线程之间弄丢的细节

区分清楚：代码仓库放代码，记忆库放工作上下文

记忆库放在 GitHub 上的时候，diff 就成了记忆的审查面。你能看到 Codex 觉得什么值得记下来

05 浏览器与电脑操控

线程有了记忆之后，下一个问题很实际：它能用什么？

Connector 把 Codex 伸到工作最先冒出来的地方：Slack 里的讨论，收件箱，日历，文档，Issue 追踪器

在迭代本地应用的时候，用浏览器。任务需要登录态或者多个认证标签页，用 Chrome。只能通过桌面应用完成的操作，用 computer use，权限和审查机制要设好

如何使用 Codex，进行长程任务

跨 Connector 指令：同时查 Calendar、Slack、Drive

Skills 让重复的活儿更容易复用。一个工作流跑通之后，把指令、参考资料和脚本打包起来，Codex 下次就不用从头学了

06 远程控制

远程控制让你更容易盯住跑了很久的任务

Codex 在你的文件、权限和本地环境所在的那台机器上持续干活。你换一台设备签进来，看看它找到了什么，回答一个问题，批一下下一步，或者换个方向

如何使用 Codex，进行长程任务

Codex mobile，扫码连接手机

在桌前把任务启动。走开。用手机审查下一个决策点。批准，调方向，或者要求重来一版

Jason Liu

远程控制不是用来跳过审查的。它是一种保持注意力的方式，让循环里的下一步不被卡住

07 线程自动化

线程自动化是绑在当前线程上的定时唤醒。告诉 Codex 按固定节奏回到同一个对话里，上下文都还在，不用每次重头来

一个线程可以挂多个时间计划。可以跑到某个条件满足为止。频率可以随着任务变化调

盯的可以是一个 PR，一条 Slack 讨论，收件箱，一个部署，一份文档，一个客服工单，或者一个跑了很久的命令

如何使用 Codex，进行长程任务

每 30 分钟检查 Slack 和 Gmail，起草回复但不经批准不发

08 三个循环案例

这套东西的力量在于循环：上下文 → 工具 → 记忆 → 复现 → 审查，然后回到上下文

如何使用 Codex，进行长程任务

Context → Tools → Memory → Recurrence → Review 闭环

循环 1：参谋长

Codex 按计划查 Slack 和 Gmail，找到可能需要注意的消息，查一下背后的上下文，起草回复。最后发什么，人来定

如何使用 Codex，进行长程任务

参谋长循环：Codex 准备消息、上下文、草稿，你来定批不批、语气、时机

循环 2：盯反馈

Codex 盯一个 Slack 频道里的动画反馈，改 Remotion 项目，重新渲染，把改好的版本准备好等审查

这个循环跨了好几个工具：Slack 收反馈，Remotion 出渲染，上传或者审查需要 GUI 的时候切 computer use

如何使用 Codex，进行长程任务

反馈监控循环：Codex 准备反馈摘要和更新渲染，你来定创意判断和发布

循环 3：搞退款

Codex 盯着客服有没有加入对话，客服一回复就准备下一条回复

人不在的时候任务可以继续跑，但动作范围是有边界的

如何使用 Codex，进行长程任务

退款循环：每 5 分钟检查客服状态，客服回复后切到每分钟

09 目标

弱目标让 Codex 去执行一个计划。强目标给 Codex 一个可以拿来测的东西：预期行为，审查标准，约束条件，或者一个清楚的完成定义

强目标：移植这个库，保持公开 API 兼容，拿原有的单元测试当验收标准。同样的测试跑过了，差异也记录了，才算可以提交审查

Rich 到 Rust 的移植案例把这个讲得很具体。目标不只是移植这个库，而是用一种能通过原有单元测试的方式去移植

如何使用 Codex，进行长程任务

Textualize/rich 仓库，目标是移植到 Rust 并通过原有测试

10 侧边面板

侧边面板很容易被当成一个预览窗口，但这低估了它。Codex 在这里从聊天界面变成了工作界面。你能在侧边面板里查看 Codex 正在操作的东西，留评论，审查改动，产出物就留在线程里

如何使用 Codex，进行长程任务

侧边面板：左侧对话，右侧实时渲染产出物

侧边面板是 Codex 从聊天应用变成「工作发生的地方」的转折点

Jason Liu

Jason Liu 的用法展示了一件事：Codex 搭工作系统的速度很快

有了这些推进项目的新方式，任务更容易拿起来、审查、接着干，上下文不会丢。花在重启上的时间少了，花在已有进展上的时间多了

原文来源：OpenAI 官方白皮书「Codex-maxxing for long-running work」

文章来自于"赛博禅心"，作者 "金色传说大聪明"。

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！

项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址：https://github.com/n8n-io/n8n

在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。

项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file

【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用：https://vectorvein.ai/（付费）

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。

项目地址：https://github.com/Significant-Gravitas/AutoGPT

【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。

项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0