导读
一个开发者公开了自己的工作流:让 OpenAI Codex 专门去审查 Hermes agent 写出来的代码,理由只有一个——审稿人不能和写稿人共享同一套记忆。这条推文引发了近万次浏览,背后藏着一个 agent 工程化的新趋势:多模型协作的价值,可能在于互相制衡。
4 月 26 日,开发者 Shannon Sands 在 X 上发了条帖子,语气很随意,但内容很炸:
"I like having it review work done in Hermes so it's not biased by memory or anything."
「我喜欢让 Codex 去审 Hermes 做出来的东西,这样它就不会被记忆或者类似的东西带偏。」


▲ Shannon Sands 的主帖,136 赞、万次浏览,评论区直接聊到了企业级 agent 架构
这条帖子拿到了136 个赞、超过 1 万次浏览。评论区没人在吵"哪家模型更强",讨论全都集中在一件事上:让第二个模型来当代码审稿人,到底靠不靠谱?
Shannon 的操作逻辑其实很简单:Hermes 负责写代码,Codex 负责审代码。两个模型,两套上下文,互相没有记忆交叉。
这背后有个很多开发者都踩过的坑——同一个 agent 审自己刚写的代码,几乎不可能真的客观。
原因有三:
路径依赖。它会默认自己刚才的实现方向大体没问题,顺着原来的思路继续走。
上下文污染。前面几千甚至上万 token 的对话历史,已经把它的判断框住了。它的"审查"更像在替自己辩护。
自我宽容。它可能真的看到了问题,但太容易顺着自己之前的逻辑把每一个决策都合理化掉。
这就跟人类写论文一样——你让作者自己查漏,他永远觉得"这写得挺好的啊"。所以学术界才有盲审制度。
Shannon 做的事情,本质上就是给 AI agent 也搞了个盲审机制。
为什么 Shannon 偏偏提到 Hermes?
因为 Hermes 把"记忆"做成了核心卖点。看看它 GitHub 仓库的官方描述:
"The self-improving AI agent… It's the only agent with a built-in learning loop — it creates skills from experience, searches its own past conversations, and builds a deepening model of who you are across sessions."
「一个会自我改进的 AI agent……它内置了学习闭环——从经验中创建技能,搜索自己过去的对话记录,并在跨会话中持续加深对你的理解。」

▲ Hermes 仓库,12 万 Star,近 1.8 万 Fork,把"跨会话记忆"写进了核心功能
换句话说,Hermes 越用越聪明,但也越用越"固执"。它积累的经验、记忆、习惯,全都会影响它下一次写代码时的决策。
这时候再让它审自己的代码?那跟让一个连续加班三天的工程师审自己凌晨三点写的代码没区别——他只会觉得"逻辑很清晰"。
所以 Shannon 的做法很直觉:既然 Hermes 记忆太重,那就找一个完全没有这些包袱的模型来审。
Shannon 选 Codex 不是随便选的。OpenAI 官方文档明确写了 Codex 的定位:
"One agent for everywhere you code" / "Understand unfamiliar codebases"
「一个覆盖你所有编码场景的 agent」/「理解你不熟悉的代码库」

▲ Codex 官方文档首页,把"理解陌生代码库"写进了核心能力
"理解陌生代码库"——这恰恰是一个好审稿人需要的能力。不需要了解前因后果,不需要共享历史对话,空降进来,冷眼看一遍,指出问题。
而且 Codex 最近的更新也在往这个方向走。ghacks 4 月中旬的报道显示,Codex 新增了 memory 功能、computer use、90 多个插件,还能自动调度长时间任务。

▲ ghacks 报道:Codex 正在从"写代码工具"进化成完整的 coding agent
也就是说,Codex 自己也在变成一个有记忆的长期协作 agent。但在 Shannon 的工作流里,它被刻意放在了"无记忆外部审查者"的位置——用一个能记住事的模型,偏偏让它以不记住的方式工作。这个设计很巧妙。
Shannon 的帖子发出后,评论区迅速分成了几个阵营。
支持派直接上手了。开发者 Melinda B. Chu 回复说,她正在做一个叫"多模型发散分析"(multi-model divergent analysis)的项目:
"it's great for you to have different POVs. I don't have any feelings or jealousy."
「拥有不同视角这件事本身就很棒。我没有任何感觉或嫉妒。」

▲ Melinda B. Chu 回复:关键在于不同视角
这条回复虽然互动量不高,但说清了一个很重要的逻辑:多模型协作最大的价值,就是视角独立。
制度派则看到了更现实的问题。开发者 Michał Wadas 直接把话题引到了企业合规层面:
"It's against Anthropic ToS, including commercial contracts."
「这违反了 Anthropic 的服务条款,包括商业合同。」

▲ Michał Wadas 回复:条款问题才是真正的拦路虎
Shannon 自己也在主帖里追问过:
"What's Ant going to do when companies want to build their own internal harnesses, especially on something open source like Hermes, chuck a fit every time?"
「当公司想基于 Hermes 这类开源项目搭自己的内部 harness 时,Anthropic 打算怎么办?每次都发飙吗?」
这把问题推到了更深一层:开发者想要的多模型协作,可能会撞上厂商的条款围墙。
值得注意的是,Shannon 的主帖并非突然冒出来的。就在同一天稍早,他还发了另一条高热帖:
"people need to actually start taking sandboxing seriously at some point"
「大家总得有个时刻,真正开始认真对待沙盒隔离。」

▲ 这条推文拿下了 781 赞、近 18 万次浏览,445 人收藏
781 个赞,近 18 万次浏览,445 人收藏。这个数据说明大量开发者都有同样的焦虑:agent 越来越强,但围绕它的架构控制——沙盒隔离、权限管理、外部审查——严重跟不上。
Shannon 的两条帖子放在一起看,逻辑链就很清楚了:光靠 prompt 管不住 agent,得靠架构。外部模型审查是架构控制的一部分,沙盒隔离也是。
有意思的是,Anthropic 自己的工程博客早就讲过这个问题。他们在一篇关于长时运行 agent 的文章里写道:
"The core challenge of long-running agents is that they must work in discrete sessions, and each new session begins with no memory of what came before."
「长时运行 agent 的核心挑战在于,它们必须在离散的会话中工作,而每一次新会话开始时,都没有之前的记忆。」

▲ Anthropic 工程文章:agent 的记忆断裂、上下文交接、半完成状态,是真实的工程难题
文章还提到,agent 可能会把"做了一部分"当成"已经完成",也可能在交接时丢失关键状态。
这恰恰验证了 Shannon 工作流的合理性:既然 agent 自己的记忆和状态管理天然不可靠,那引入一个干净的外部视角,就是最直接的补救手段。
把所有线索串起来:
1.Hermes 类 agent 越来越依赖记忆和经验积累——写出来的代码越来越带有"个人风格" 2.Codex 类 agent 越来越擅长理解陌生代码库——天然适合做外部审查 3.开发者开始主动设计"模型间制衡"的工作流——生成者和审查者刻意分离 4.厂商条款还没跟上这个趋势——企业自建 harness 可能踩红线
这像什么?像极了传统软件工程里的code review 制度——写代码的人不能审自己的代码,必须有另一个人(现在是另一个模型)来把关。
区别在于:人类 code review 靠的是"不同的人有不同的经验",AI code review 靠的是"不同的模型有不同的上下文"。
Shannon 可能只是随手发了条推文,但他描述的这个工作流,正在成为一种可落地的工程模式。当 agent 越来越像"会记事的同事",你需要的就不只是一个更聪明的 agent——你需要一个跟它没有任何瓜葛的、冷静的第二双眼睛。
文章来自于微信公众号 "虾智",作者 "虾智"
【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!
项目地址:https://github.com/coze-dev/coze-studio
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0