人类和 AI Agent 的最佳配合方式,还没被发明|对谈 Paperboy

首页 AI资讯 AI技术研报 AI监管政策 AI产品测评 AI商业项目 arena全球大模型排行榜 AI产品热榜 AI 源力市场 AI专利库 AI需求对接 AI新闻日报
下载 AITNT APP
🍎 iOS 下载 🤖 Android 下载
人类和 AI Agent 的最佳配合方式,还没被发明|对谈 Paperboy
AI资讯 2026-06-04 20:53
+9956 阅读

人类和 AI Agent 的最佳配合方式,还没被发明|对谈 Paperboy


🚥本周,十字路口的嘉宾是 Paperboy 团队(https://www.paperboy.com[1])。John Yang 21 岁,CEO。Jett Chen 19 岁,CMU 大一在读,同时是 founding engineer。Paperboy 团队 12 人,10 位工程师,融资 470 万美金。


John 认为:人类和 AI Agent 配合工作的最佳方式,很可能还没被发明出来。虽然已经有了 Claude Code、Codex、Manus、OpenClaw,但它们本质上都是 session-based + prompt-based。用户需要打开一个窗口,输入 prompt,等完成,关掉。下次从零开始。


Paperboy 正在尝试找到一种更自然、更连续、更可协作的 Agent 界面与记忆结构——Agent 应该通过观察你用电脑来自己学习,用 IM 而不是 session 来组织对话,主动找你,而不是等你 prompt。


如果你在做 AI 产品、AI infra、或正在思考 Agent 如何进入团队工作流,希望这期内容会给你启发。


快问快答


👦🏻 Koji


我们还是从十字路口的传统,快问快答开始,请问二位的年龄?


🧑🏻‍💻 John Yang


21。


👨🏻‍💻 Jett Chen


19。


👦🏻 Koji


毕业院校是?


🧑🏻‍💻 John Yang


没毕业,之前在 Pratt Institute 读建筑。


👨🏻‍💻 Jett Chen


我高中毕业于上海星河湾双语学校,现在在 CMU 读大一,刚刚结束。


👦🏻 Koji


你们的 MBTI 和星座是什么?


🧑🏻‍💻 John Yang


ISTJ,双子座。


👨🏻‍💻 Jett Chen


INTJ,处女座。


👦🏻 Koji


创业之前,你们做了些什么?


🧑🏻‍💻 John Yang


Paperboy 是我的第二家公司。我的第一家公司叫 Million,我们在 React Ecosystem 里做了很多开源的 Dev Tools,后来做了一个产品叫 Same.Dev,能让普通人通过输入一个 URL,就做出和任何网站一模一样的 UI。


Million 是在 YC Winter 24 中的。


👨🏻‍💻 Jett Chen


在 Paperboy 之前我是个高中生,喜欢做开源项目和打 CTF。我做了一个叫 EarthKit 的东西,可以基于一张照片,用多模态技术推测出它的拍摄地点,效果比传统的纯神经网络模型更好。


👦🏻 Koji


那是什么时候做的?


👨🏻‍💻 Jett Chen


差不多一两年前。


 起点:现在的 AI 产品,我用着不爽


👦🏻 Koji


我们来介绍一下,Paperboy 是一个什么样的产品?


🧑🏻‍💻 John Yang


Paperboy 是一家刚刚起步的公司,使命是探索我和 AI 协作的最佳方式。


去年,在我做完 Same 和用过 Manus 之后,我对市面上的 AI 产品总有一些不爽。Paperboy 就是从我尝试各种方法,不断摸索不同路径开始的。我们试图解决一些技术问题,也包括产品形态的问题。


比如,我不应该需要把自己的文件、Email 和所有个人信息都丢到一个聊天框里。如果我要和别人协作,同时跟一个 Agent 对话,应该有一种非常简单的方式,让我们在同一个上下文窗口里完成。


再比如,Agent 在知道我的很多信息后,应该能主动地提前帮我做一些事情,但现在的聊天窗口完全做不到。而且,现在所有的产品都是基于会话的,session 一多,你就找不到之前聊天的上下文了。


这些问题,总体上是模型能力和实际应用之间的差距。我觉得在产品体验上,依然有巨大的探索和创新机会,所以我们公司叫“Paperboy Products”,是产品、是复数。


👦🏻 Koji


我们稍后展开聊。先完成快问快答,你们的融资情况如何?


🧑🏻‍💻 John Yang


25年我们融了470万。


👦🏻 Koji


Cool。收入和利润呢?产品还没发布对吧?


🧑🏻‍💻 John Yang


毛利为零甚至是负的,我们每天都在亏钱哈哈哈。


👦🏻 Koji


大家大概什么时候能用上产品?


🧑🏻‍💻 John Yang


我们已经把一个能从操作系统活动中学习的 Agent 原型发给了一些朋友。


但它成本太高了,而且运行得不太好。我们正在努力这个月内完成下一代产品,然后会再次推向市场。


👦🏻 Koji


我们发布这期播客时,会把链接放在下面,感兴趣的朋友可以去 sign up for waitlist。


🧑🏻‍💻 John Yang


Yeah,我想当这期播客发布时,大家应该就能看到了。


👦🏻 Koji


好的,目前团队规模是?


🧑🏻‍💻 John Yang


12 个全职员工,其中 10 位是工程师。


👦🏻 Koji


我第一次见 John 的时候,你给我看了一份给团队内部开会用的文档,第一句话就是:“人类与 AI 协作的最佳方式,很可能还没有被发明出来。”


写下这句话时你看到了什么?到现在,你的看法有变化吗?


🧑🏻‍💻 John Yang


对,那是我们第一次全体会议时我准备的文档。当时公司只有我、杜哥、Chen、Jett 四个人。


我们从一个核心理念出发:与 AI 协作的最佳方式尚未被发明,而我们有机会成为找到那个答案的团队。Cursor 最早开始努力寻找与 AI 编程的最佳方式,并且取得了巨大的成功,他们是第一家真正专注在这个目标上的公司,也证明了抢先一步是多么重要。


你问我从那时到现在有什么新的感悟。我觉得很酷的一点是,这其实是一个不断移动的目标。


人类和 AI Agent 的最佳配合方式,还没被发明|对谈 Paperboy


你永远无法真正达到市场的期望,只能不断变得更好。因为每当你做出新东西,其他人都会看到。如果别的团队有品味,用户有品味,他们就能发现新的痛点,痛点永远存在,所以你唯一能做的就是持续改进。


这是一个不断移动的目标。自从 OpenClaw 和 Anthropic 的 Claude Cowork 发布以来,这个感觉更强烈了。


👦🏻 Koji


最近很多创始人感到有些绝望,因为创业过程中不断有“王炸”出现。你们公司成立的这半年,也恰好是行业剧烈变化的半年,从 Claude Code 到 OpenClaw,再到 Hermes。


你的感受是什么?你最初想做的东西,和现在在做的,有没有因为这些巨头的出现而发生剧烈改变?


 Claude Code 轰炸之下


🧑🏻‍💻 John Yang


其实没有。我认为问题的探索空间源自于人。


从技术和产品的角度看,问题可以分为三类:


第一,技术上,要让 Agent 能够真正从用户的环境中学习。它必须融入用户已有的工作流,也就是数据产生的地方,比如电脑上的文件和各种软件。


第二,它必须是个性化的。个性化意味着你不需要频繁地提示它,可以信任它处理更复杂、更重要的任务和决策。这也意味着它要更可靠,能在更长的时间周期里持续运行。


第三,设计上,它的体验必须极其直观,用户不需要像学一个新工具那样去学习它。如果你的 Agent 足够主动,能自己提出新想法,那么用什么形态来承载这些主动的产出呢?它需要在一个完整的环境中,需要个性化,并且能和你现有的团队很好地协作。


所以,当你审视市面上的新工具时,会发现并没有出现什么新的维度。这三个维度的发展,仍然受限于人类团队本身。


Agent 的两大问题


Cursor 和 Manus 是目前最成功的 agent 形态,但 John 说它们有两个根本性的问题——这直接定义了 Paperboy 要做的事。


👦🏻 Koji


可以简单向大家推荐一下 Paperboy 吗?听我们播客的很多人可能已经是 Claude Code、Manus 或其他 Agent 的重度用户了,为什么他们要给 Paperboy 一个机会?


🧑🏻‍💻 John Yang


目前,Claude Code 和 Manus 是最成功的 Agent 形式,但它们是基于会话的(session-based),也是一对一、基于prompt的。


这带来了两个重要问题。首先,session-based 意味着在它们的侧边栏里,你有多个工作区(项目),每个项目下又有一堆会话。每次想让模型做点新事,就得开启一个新会话。


其次,你与模型的交互方式是,你输入提示词,然后等待,再发一条消息,它再回复。


这种方式的问题在于:


第一,Agent 是被动的。你必须描述得非常具体。你可以创建技能文档(比如 agent.md)来告诉它该做什么,但你得主动维护它,而且很难把你的品味、判断和做事方式,完整地转化为纯文本。


第二,会话是不连续的。拥有几百个甚至几千个会话是件很糟糕的事。我知道在过去的某些会话里,上下文窗口中包含了非常有价值的见解,但如果我当时没有刻意保存下来,那这些信息就永远丢失了。


Paperboy 正面解决了这两个问题。


第一,Agent 必须通过观察你如何使用电脑来自己学习。这包括你的屏幕截图、键盘敲击、鼠标移动、会议音视频、浏览记录、iMessage 等等——当然,前提是你授权 Paperboy 访问这些信息。


第二,交互应该存在于持续的聊天流中,拥有比单个上下文窗口长得多的历史记录,并且可以被搜索。标准的产品形态应该像 iMessage 或微信,你有一堆聊天,点进去就可以和里面的参与者继续对话。


👨🏻‍💻 Jett Chen


补充一下 session 和 context window 的问题。现在类似 Claude Code、Manus 这类产品,你可以 argue 它们有无限的 context window,因为它们有 compaction 机制。


一些更新的产品,比如 Interaction 公司的 Poke、Zo Computer,甚至 OpenClaw,也采用了类似的形式——不存在 session,你和 Agent 的互动一直是持续的对话流。


Paperboy 和这类产品的一个主要区分点在于 context 的来源。它们的 context 主要来自用户与 Agent 的历史聊天记录,或者用户主动提供的 Email、messages 等。我们一开始也尝试过导出用户的微信或 iMessage 聊天数据,但很快发现这不是一个可规模化的方式。


最 scalable 的方式,其实是通过操作系统层面,去观察用户的日常电脑使用来收集数据。我们发现,这样能非常全面地了解用户每天在做什么。


而且从信息浓度的角度看,用户日常使用电脑的信息浓度非常高,观察 60 分钟电脑使用,能学到的东西远比观察 60 分钟微信聊天要多。


所以,我们很早就决定,通过 OS 层面的 context 来实现用户自适应。


屏幕数据成了行业共识之后


「收集用户屏幕数据去构建 Context Layer,已经一定程度上成为行业共识。」


👦🏻 Koji


之前播客的嘉宾,AirJelly 的创始人,他们做的也是一个桌面客户端,用来捕捉用户尽可能多的上下文。最近 OpenAI 的 Chronicle 也是类似的想法。


你们的做法和大家类似吗?还是有什么不同?


🧑🏻‍💻 John Yang


从电脑上抓取原始数据并将其处理成记忆,这将成为一个普遍的趋势。不只是像 AirJelly 这样专注做这件事的创业公司,Codex、Claude Cowork、Claude Code 这些产品最终都会这么做,这是下一个最显而易见的上下文前沿。


人类和 AI Agent 的最佳配合方式,还没被发明|对谈 Paperboy


当然,不同团队处理这些原始流数据的方式会很不一样。你如何选择和结构化这些信息,直接关系到 Agent 的具体应用。比如,一家专注于研究用户如何回复邮件的公司,和我们的记忆结构、压缩原始数据流的方式就会完全不同。


这个行动空间足够大,现在还有足够的机会,让你成为第一个真正理解用户在所有应用、所有人际关系中的身份,并对用户一天的行为进行建模的公司。


单凭这种能力,就很明显会吸引所有人涌入。但根据具体应用的不同,算法的定制和改变仍有很大空间。


👨🏻‍💻 Jett Chen


我也认为通过收集用户屏幕或电脑使用数据来构建 context,在某种程度上已经成为行业共识。更重要的是,在这个范式下你具体做什么。


目前像 Codex 或 Littlebird 这类产品,会把屏幕数据当作一个 context layer。比如 Codex Chronicle 的用例是,通过收集屏幕数据,学习用户通常如何开发一个应用。如果你的用例不同,最终的 pipeline 也会不同。


这是一个非常新的领域。在收集用户数据的基础上,其实还可以做非常多的事,这需要大量的工程和研究。比如,如何做出最好的主动型 Agent?是预测用户的下一个按键,还是预测他接下来一小时要做什么?这些都是相对未被充分探索的问题空间。


目前我认为还没有人找到一个绝对最好的方案,所以对一家公司来说,探索这个领域仍然是很好的选择。


👦🏻 Koji


如果一个用户今天安装了 Paperboy,他在第一个小时甚至前 5 分钟,能感受到的最大价值是什么?你们希望用户第一时间感受到的亮点是什么?


🧑🏻‍💻 John Yang


我们可能会从会议准备开始。


在一个小时内,很重要的一点是向用户展示你的产品能做什么的框架,设定好预期。关于记忆,有一个特点是,你用得越久,它就越好。所以你需要一个初始阶段让用户信任它去学习。


当你打开它,会看到一个真实的聊天窗口,而不是一个简单的提示框。一旦你授权它访问你的日历和邮件,它就会开始阅读你给它的信息,然后会问一些关于你是谁的小问题,并开始给出一些建议,比如:“嘿,我看到你接下来有个会议,需要我帮你看看相关资料吗?”


在这方面,我觉得 Interaction 公司的 Poke 做得最好,他们找到了秘诀:连接到用户已有的上下文,并向用户展示你是一个能真正互动、适应他们性格、并且以一种主动而不烦人的方式提供帮助的智能体。


这样,你就能让用户建立起一种期望:我们是一个能以合理方式主动给你发消息的 Agent。


MiniVivian & AutoJohn


👦🏻 Koji


你们团队自己用 Paperboy 多久了?在这个过程中,有什么可以分享的 “Aha Moment” 吗?


🧑🏻‍💻 John Yang


我们团队的 Vivian,她之前在小红书和红杉YUE 工作。我们有一个 Vivian 的 Paperboy,叫 MiniVivian。我的 Paperboy 叫 AutoJohn。在我们的 Slack 里,团队成员会一直直接问 AutoJohn 问题,它能处理所有进来的询问,帮助产品和设计团队找到他们需要的帮助。


以 MiniVivian 为例,Vivian 做很多招聘工作,MiniVivian 就像是她在团队里的招聘实习生。因为它理解我曾对它说过的所有关于我们想招什么样的人、从哪里招人的判断和品味——这些信息来自我们的会议和 Slack 沟通。它能更准确地帮助 Vivian 在 GitHub、小红书、Twitter 上挖掘候选人,为她节省了大量时间。


我想 Vivian 从今年二月起就没再用过 Claude 了。她没法用,因为 Claude 不了解这些背景,你没法让它帮你做候选人背调,有太多关于判断标准的事情你必须从头告诉它。


👦🏻 Koji


因为它有了更多的 context,所以你 prompt 的时候,甚至可以不 prompt。


🧑🏻‍💻 John Yang


是的,我讨厌 prompting。从我做 Same 的时候开始,我就不想写提示词。当然你需要沟通,但我们人类思考不是用提示词,我们是发信息,并且期望对方知道我们在说什么。我们享受那种高带宽的沟通关系。


我想,聪明的人都乐于被告知自己不知道的事情,尤其是那些“我们不知道自己不知道”的事。


今天的模型比我们更聪明,所以坦白说,我期待有一天,我可以直接躺平,让 AutoJohn 成为一个比我更聪明、IQ 更高的存在。


👦🏻 Koji


Jett 呢?你在使用 Paperboy 的过程中有什么 “Aha Moment”?


👨🏻‍💻 Jett Chen


首先,确实很多时候和 John 的 “AutoJohn” 聊天,会比和 John 本人聊天更好。


👦🏻 Koji


当你和他的 Agent 替身对话时,会担心它的意志不能完全代表 John,从而产生误解吗?


🧑🏻‍💻 John Yang


我的看法是,用户最终必须为自己的 Agent 负责。AutoJohn 的设置过程不是一蹴而就的,不是说某天突然就有了一个可以拉进 Slack 的实体。


这中间有一个引导流程,Agent 会问你问题,比如:“允许我向这个人分享多少信息?” 默认情况下,它会模仿我的行为,比如我和 Jett 分享得多,和新入职的工程师就分享得少,Agent 通过观察我所有的聊天记录就能知道这一点。


👨🏻‍💻 Jett Chen


和一个人互动其实分很多种情况。有些事我不会去和 AutoJohn 说,比如需要 John 本人批准的权限问题。但在工作场景中,很多沟通是基于信息的。John 有整个 Paperboy 公司的 context,我作为一个工程师,需要知道如何做才能对公司产生最大价值。


这时候,因为 AutoJohn 一方面在事实上拥有 John 大部分的 context,另一方面通过观察 John 的工作,它的启发式能力和 John 本人非常相似。所以,在做关于 context 和 heuristic 的决策时,我觉得 AutoJohn 非常有用。


我其他的 “Aha Moment” 来得比较早。当我们做出文本补全功能时,我就觉得对我日常编程很有用。


现在有很多 AI 命令行工具很火,但它们不如传统的流畅。而传统工具又往往没有 AI 集成,写脚本时很烦。有了文本补全后,我写完一堆代码,要发一个 git commit 时,可以直接在命令行里输入 “@pb commit”,它就会自动帮我写好整个 commit message,我按一下 enter 就能发送。


👦🏻 Koji


可以展开讲讲这个功能吗?


👨🏻‍💻 Jett Chen


我们的开发流程是,先建立一套能从操作系统收集用户数据并形成有效记忆的系统。在这套系统之上,我们有一个框架,能实时生成并更新一个关于用户的 Markdown 文档。


这个文档包括用户的职业、过去几天的活动,甚至过去几秒、几分钟在做什么。离当前时间点越近,信息的颗粒度就越细。


所以,Paperboy Agent 始终拥有这个 context。有了这个基础后,我们就在寻找应用场景。第一个找到的好场景,就是在操作系统的任何地方实现自动补全。


比如,你在发微信时,可以在输入框里打 “@pb” 这个激活词,后面可以跟一个简短的指令,也可以什么都不输入。


👦🏻 Koji


不输入它也会猜你此刻找我是要干嘛?


👨🏻‍💻 Jett Chen


对,因为它有 context。


👦🏻 Koji


就像你和一个默契的同事,有时候你不需要说话,一个眼神他就懂了。指一下屏幕,“看这儿”。


人类和 AI Agent 的最佳配合方式,还没被发明|对谈 Paperboy


👨🏻‍💻 Jett Chen


对,他一看就知道是哪个问题。Paperboy 当时就差不多达到了这个效果。所以无论你在做什么,它都能适时地提供 context。


对我来说,一个 “Aha Moment” 是在命令行或 GitHub 里。当我发一个 PR 时,它能直接帮我写好整个 PR 的描述。


我发现它写出来的描述,比 Cursor 或 Claude Code 写的要好。因为我开发一个功能时,可能一会儿在和 Claude Code 交互,一会儿在微信和 John 沟通,一会儿又在浏览器里做研究。Paperboy 能把所有这些跨应用的 context 聚合起来,生成一份 PR 草稿。


我对它理解我正在做什么的深度感到惊讶,远超那些只基于单个应用 context 的 AI 工具。


👦🏻 Koji


还有其他的吗?


👨🏻‍💻 Jett Chen


我怀疑自己有 ADHD,工作时很容易分心。我经常一边用 Claude Code,一边看 Hacker News,看到有意思的文章就点进去看半个小时,回来时 Claude Code 可能已经结束运行十几分钟了。


针对这种情况,我之前每天晚上会让 Paperboy 给我一份报告,告诉我今天效率如何。我甚至让它在我效率不高或者分神的时候“骂”我。我觉得,当我知道 Paperboy 在“盯着”我工作时,我的效率会更高。


👦🏻 Koji


不是 “Big brother is watching you”。


🧑🏻‍💻 John Yang


我现在很大一部分工作是使用不同的产品、做研究和与人交谈,遗憾的是不能像以前那样写那么多代码了。但 Paperboy 很棒,因为它能把所有这些不同来源、不同颗粒度的信息都记在脑子里。


比如,当我想学习微信的历史,或是各种网络效应商业模式的成败案例时,在做完研究后,我需要把这些点串联起来,并和 Paperboy 的发展联系起来。


这时我脑子里有很多想法在碰撞,我需要一个工具帮我理清思路,甚至提醒我:“等等,你几个月前尝试过类似的产品形态,当时你发现了这些问题。” 我知道这些事,但在进行这种跨层面的思考时,虽然可以手动在纸上画出来,但如果有一个非常了解我的聪明模型来帮助我,过程会快得多。


微信群聊,启发了界面设计


👦🏻 Koji


最近有这样的例子吗?


🧑🏻‍💻 John Yang


我们两周前开始设计 Paperboy 最新的界面。当时我们遇到了一个问题:如果我们要把产品卖给 VC,他们想要个人 CRM 模块、会议提醒模块、交易跟踪模块。但产品同样也适用于创始人、房地产销售,他们需要完全不同的模块。我们该怎么办?把这些做成技能、插件还是配方,让用户自己挑选?


在 Paperboy 里,这感觉不太对。后来 Paperboy 向我指出了一个方向:我们常用的应用里,什么东西像是一个能容纳无限列表但又不让人烦躁的界面?答案是即时通讯。


想想我们的 iMessage 和微信,特别是微信,里面有联系人,也有一大堆群聊。可能三个人会为了不同的事拉四个群。这其实是一种非常直观的组织话题的方式。


👦🏻 Koji


确实,我们每一期播客都会拉一个新的群,哪怕里面的成员都一样。因为多期播客后期同时进行,在一个群里会很乱。


🧑🏻‍💻 John Yang


对。IM 的好处在于,当一个群不活跃了,它就会被沉下去,你也可以把它隐藏。所以微信本身就像一个收件箱。


这就是我们的灵感来源:我们知道产品需要一个收件箱功能,那为什么不直接把它设计成一个本身就是收件箱的东西呢?IM 就是。这就是最新界面的由来。


👦🏻 Koji


听下来,Paperboy 有很多与众不同的功能和交互理念。但像我们之前聊的,捕捉所有 context 正在成为共识,如果你们的交互范式被证明是有效的,大家也很快会追上来。


你们怎么看待竞争?谁是你们最主要的对手?如何保持持续的优势?


🧑🏻‍💻 John Yang


今天真正重要的只有两家:OpenAI 和 Anthropic。其他所有人都跟在他们后面。他们拥有所有优势:他们有模型,Anthropic 最近又有了新的算力,他们还有极佳的分发渠道。我们唯一能指望的,就是像 Cursor 那样,在品味上有一些优势,在探索新交互界面这样的事情上比他们快一步。


这都是针对个人用户的产品体验,这部分不会消失。但另一块是企业级市场,他们肯定会想进入,因为那里才是钱所在的地方。


Paperboy 一开始其实想做的第一个产品是 AI Slack。这也是我们最初对“如果与 Agent 协作的最佳方式还没被发明,那我们该做什么”这个问题的答案。


👦🏻 Koji


这也是个很热门的赛道,很多产品都在探索当 Agent 进入团队后,我们应该用什么样的工具来工作。你怎么看市场上的 Slock、Multica、Moxt 这些产品?


🧑🏻‍💻 John Yang


首先,我很喜欢 Slock,Richard 很聪明,他和他的联合创始人背景都很好,团队也很棒。但做一个 AI 版 Slack 的难点在于,你如何让企业客户切换平台?这纯粹是我的个人观点。


AI Slack 的商业模式要跑通,必须卖给团队。但对于企业来说,除非有一种方法能把所有数据从原来的 Slack 无缝迁移过来,实现一对一的体验,否则切换成本太高了。而且你仍然需要构建大量的连接器,去集成企业现有的其他所有数据。这些底层工作省不了。


第二,坦白讲,Slack 并不是一个出色的产品。它的频道和话题串界面用起来并不愉悦。虽然到了一定规模你不得不用它,因为它没有更好的替代品,但这绝不是一个好用的产品。


以上还只是用户和获客层面的问题。然后是 Agent 的问题。就像 Jett 说的,我们不认为,如果 Agent 学习的唯一信息来源只是你发给它的消息,它的学习速度能有多快。


有工作的人都很忙,没时间去关心怎么训练 Agent,他们希望产品开箱即用,并且能自己不断变好。我们之所以放弃做 Slack,也是因为感觉 Slack 里的 Agent 仍然需要更多的 context 才能自然地学习。


👨🏻‍💻 Jett Chen


我觉得 Slack 有很强的网络效应,这能阻止它被新玩家替代。比如它有一个功能叫外部连接,现在很多公司之间的交流已经不是通过 Email,而是通过这个功能进行,这是很难被替代的。再加上其他的集成,让 Slack 在某种程度上像微信一样,变得不可或缺。


相比之下,如果你把 Agent 作为一个更高层级,一个在 OS 层面、与 Slack 形成互补的东西,反而会有更好的落地路径。


👦🏻 Koji


所以这是你们正在做的吗?尝试与 Slack 互补?


🧑🏻‍💻 John Yang


是的。我们假设,如果你要进入企业市场,他们肯定已经在用 Slack 沟通。如果你做一个类似 Slack 的东西,你很难把它卖给一个超过 50 人的团队,因为让他们停用 Slack 的代价太大了。


所以,把 Agent 带到人们已有的工作流中,而不是试图替代和从零开始构建一切,是更合理的做法。


The Last Interface 与五种速度


👦🏻 Koji


我注意到 Paperboy 官网有一篇博客,标题是《The Last Interface》,里面提到了“五种速度”(five kinds of speed)。可以展开讲讲吗?我理解这背后是你们对 context layer 和 memory system 的理解。


🧑🏻‍💻 John Yang


好的,我就不深入太多细节了。选择“五”这个数字,并不是因为我们真的只有五层,而是一个合理的分类方式。


这个想法很重要。旧金山有一个叫 Long Now Foundation(今日长存基金会)的非营利组织,其创始人 Stewart Brand 发表过一个叫“节奏分层”(Pace Layers)的理论。他把世界分为六个层级:时尚、商业、治理、基础设施、文明和自然。


这些层级以不同的速度变化着,时尚最快,自然(如物理定律)几乎不变。


世界就是由这些不同节奏的层级构成的,它们相互关联,构成了我们的社会。


我从高中起就对这个理论很着迷,它影响了我的世界观。当我在思考,如何在 Agent 的世界里高效、可规模化地代表我们生活的真实世界时,我觉得同样需要这些不同的节奏分层。


👦🏻 Koji


很有趣。那什么对应着不变的“自然”,什么又对应着瞬息万变的“时尚”?


👨🏻‍💻 Jett Chen


对于产品来说,如果你按时间长度对用户做的任务进行分类,会发现很多不同的种类。比如,在微信上回一条消息可能只需要 10 秒钟,这是时间谱系的一端。


另一端可能是,用户花几个小时读完 10 份长报告,然后做一个商业决策。


🧑🏻‍💻 John Yang


那可能还算偏短期的,长期的任务是以月为单位的。


👨🏻‍💻 Jett Chen


我们认为,这个谱系上的每一段,都可以被某种 AI Agent 增强或自动化,但每一段需要做的事情不一样。


如果你要自动化“回复微信”这个任务,最好的产品形态可能是在你点开输入框时,自动弹出一个补全建议,这是我们已经在做的。但随着时间跨度越来越长,产品形态就变得越来越不确定。如何自动化一个长达数小时的任务?最好的形态是什么?这仍然是一个非常值得探索的区域。


👦🏻 Koji


在录制播客前和你们团队交流,好几位成员都说,和 John 沟通时感觉不到他是 04 年的,觉得他有超越年龄的成熟。我也有同感。John,你觉得自己的这种状态是怎么来的?


🧑🏻‍💻 John Yang


我觉得我骨子里还是个相当孩子气的人,尤其是和 Jett 在一起时,我们玩得很开心。


👨🏻‍💻 Jett Chen


我觉得你老气横秋。


🧑🏻‍💻 John Yang


至少对团队而言,我只是对商业充满了热情。我们想在很短的时间内做一件非常难的事,所以清晰的思路、效率和专注度至关重要。


👦🏻 Koji


这要怎么做到?知易行难。


🧑🏻‍💻 John Yang


这得从我自身开始。我的首要工作是为团队定义什么是成功,并确保每个人都清晰、准确地了解他们目标的背景和执行方式。


对我来说,能创办一家公司,最棒的部分就是可以学习很多我一直想探索和了解的东西,这种好奇心是我最大的动力。从高中到大学,我做了几份实习,在不同的公司做不同类型的任务。


人类和 AI Agent 的最佳配合方式,还没被发明|对谈 Paperboy


后来创办 Million,我们从 B2B 业务开始,向大企业销售网页性能分析工具。我们很快学到,那是一个很难规模化的生意,作为 20 岁的年轻人,我们不擅长拓展企业关系。


从那时起,我就一直在探索,什么样的市场对什么样的参与者来说才真正有意义。我喜欢的学习方式是跨越不同的商业规模,而不只是局限于创业公司。


👦🏻 Koji


这就像是创始人和市场的匹配度?


🧑🏻‍💻 John Yang


是的,不止是创始人,更是整个团队和市场的匹配度。我认为选择市场是早期创始人最重要的事情之一。你必须确保自己了解要进入的领域,知道所有的杠杆点在哪,挑战会从哪里来。


然后,你才能去组建团队,再然后才是产品体验、融资、客户和技术。


👦🏻 Koji


关于如何选择正确的市场,有什么可以分享的吗?


🧑🏻‍💻 John Yang


我可能又要讲一堆常识了。


市场要足够大,而且这种大不只是金钱上的数字,还要看它的可持续性,并且规模要能持续增长,这样你的团队才能在未来十年里不断迭代产品、巩固市场地位。


纵观历史上最成功的产品,它们从来都不是单一的产品,而是一个产品矩阵。你得有预期,你做的东西可能需要十年才能真正成为大众消费品。


另外,你得从身边的问题开始。对我来说,这是一种理解市场的方法,但随后你需要了解很多历史,才能理解商业动态、经济规律是否对你有利,以及过去是否有成功的先例。


这里面细节太多了,我觉得我目前还只是略知皮毛。Paperboy 对我来说,就是一个验证我所学知识的机会。


👦🏻 Koji


Paperboy 应该是你第一次担任 CEO,上一家公司是联合创始人。做 CEO 后,最大的变化是什么?


🧑🏻‍💻 John Yang


太难了,真的。你得为所有事情负责。


作为联合创始人当然也有这种感觉,作为 CEO,我才是那个最可能让公司亏大钱的人,因为我的决策杠杆太大了。如果我方向错了,代价会非常高昂。


随着团队扩大,我还要负责招聘,以及如何帮助团队和个人持续成长,确保每个人都在合适的岗位上。这些都是基本的管理技能,而这基本是我第一次做管理,很多事都得现场摸索。


比如,怎么做绩效评估?怎么做一对一沟通?怎么确保有时候我只需要和团队负责人沟通,而不是去微观管理每个人。


👦🏻 Koji


你是从哪里学习这些管理技巧的?


🧑🏻‍💻 John Yang


在 Paperboy 之前,我在 Manus 工作过一段时间。他们的 CTO 潘潘是一位非常出色的工程经理。我和他有过几次一对一沟通,直接问他所有我想知道的问题,比如:“你是怎么把一切管理得井井有条的?”


我也花时间阅读。我认为写得最好的管理类书籍仍然是安迪·格鲁夫的《High Output Management》,还有本·霍洛维茨的《创业维艰 (The Hard Thing about Hard Things)》,以及比尔·坎贝尔的传记《万亿美元教练 (Trillion Dollar Coach)》。


我还给自己请了一位 CEO 教练,我们每周聊一小时,这对我帮助很大,尤其是在早期,它给了我一个空间去谈论我面临的所有具体问题。


👦🏻 Koji


怎么找到她的?


🧑🏻‍💻 John Yang


投资人介绍的,她也是那位投资人的教练。她之前是 VC 高管,也在很多大企业工作过,是辅导初创 CEO 的专家。


我从没试过找心理医生,因为我不太相信心理治疗,感觉就是进去谈论情绪。但教练好得多,你当然也可以谈情绪,但更重要的是你可以谈论商业,谈论业务中发生的一切,而且内容是保密的。


在和教练的通话中使用 Paperboy 也很有趣,它会旁听我们的对话,然后帮我跟进我在通话中承诺要去做的事情,并把一切整理好。


两种工程师、一本书、一个教练


👦🏻 Koji


你们团队现在有 12 个人,规模不算小。在今天有这么多 AI 工具和 Agent 的情况下,组建一个团队和过去相比,有哪些大的变化?


🧑🏻‍💻 John Yang


如果你想做严肃的基础设施,你需要懂 Infra 的人。我们在工程团队雇了两种人:一种像 Jett 这样,年轻、高智商、有创造力,能为每个难题快速构建原型。


另一种是在特定领域基本功非常扎实的人。你必须深入理解系统和底层操作系统。我们招了一位来自 AWS 的工程师,他之前做过类似 Windows 内核的开发。我认为在短时间内,这种领域专家是不可或缺的。


👦🏻 Koji


Jett 现在大一,我们看到硅谷有些公司比如 Palantir 会直接给高中生发 offer,认为 AI 时代不再需要大学。你现在作为 Paperboy 的创始工程师,为什么还在坚持读大学?


👨🏻‍💻 Jett Chen


对大部分人来说,大学还是很有意义的。至少在 CMU,我看到的大部分同龄人,其实并不确定未来想做什么。在不确定的情况下,提升自己的技术能力,上大学是一个比较好的选择。学业只占你一部分时间,大部分时间可以由你自己决定,用四年时间去探索。


但同时,如果你在上大学时已经非常确定自己想做什么,并且确实有机会,我觉得辍学也是一个理性的选择。


👦🏻 Koji


John,作为一个年轻的、首次担任 CEO 的创始人,你是如何吸引到优秀的同伴加入的?


👨🏻‍💻 Jett Chen


我可以讲讲 John 吸引我的地方。很多时候你选择一个创始人,要看他的斜率,而不是截距,斜率比截距重要得多。我觉得 John 就是一个高斜率的创始人。


你看他的履历,他在很短的时间内就做成了很多厉害的事。这说明他很有能动性,能快速学习并执行。对于创业者来说,这 arguably 是最重要的品质。你得头脑清晰,能快速适应各种情况。


人类和 AI Agent 的最佳配合方式,还没被发明|对谈 Paperboy


首先,我认为他是个好的创始人。我和他已经共事了比较久,有很高的信心能顺畅合作。其次,他在 research、engineering 甚至 product 方面都有不错的品味。


我觉得和他一起工作,我可以学到很多经验,获得个人成长。我个人觉得 John 是个很有魅力的人。


👦🏻 Koji


大型表白现场。John 你自己怎么看?你有没有一套方法去说服候选人加入?


🧑🏻‍💻 John Yang


我对待每个候选人都是独立的个体,没有固定的套路,这必须是双向的。我从不喜欢强行向候选人推销公司。


招聘是一回事,更重要的是我的可靠性。这是我非常关注的:我招聘某人后,能否兑现我承诺给他们的?我必须确保能一次又一次地为团队带来他们需要的东西。


你要挑选优秀的人,你无法和平庸的人共事。这一点从对话、他们过去的工作以及他们过往的人生决定中就能判断出来。


如果他们经验丰富,背后有几十年的决策积累,你能从中学到很多,那种东西是装不出来的。


👦🏻 Koji


除了 Paperboy,你们最喜欢用的 AI 产品是什么?


🧑🏻‍💻 John Yang


我还是喜欢 Cursor,但仍然不用 Codex。


👨🏻‍💻 Jett Chen


我特别喜欢 Codex。


🧑🏻‍💻 John Yang


Cursor 一直是我的一个巨大灵感来源,我为他们感到高兴,也希望他们的收购能顺利。


拒绝过 Cognition、Vercel、Sentry,然后呢


👦🏻 Koji


John,你第一次创业做 Million 时,据说收到了来自 Devin 的母公司 Cognition 的收购 offer?


🧑🏻‍💻 John Yang


是的,还有其他公司的,比如 Vercel 和 Sentry。


👦🏻 Koji


当时你们都没有接受。在面临这些收购 offer 时,你们是怎么思考和决策的?现在回头看,是庆幸当时的决定,还是有些遗憾?


🧑🏻‍💻 John Yang


首先,这些都是人才收购,给的报价不会很多。而且加入这些公司,你在某种程度上就像是又一名员工,得为别人的想法工作。


我从没对开发者工具那么感兴趣,所以让我加入 Sentry、Vercel 或者 Cognition,我不会愿意。所以这说不通。如果你能保持独立,实现自己的梦想,那当然要保持独立,这是每个创始人都想要的。


👦🏻 Koji


我们说回你喜欢的 Codex。为什么是 Codex,而不是 Claude Code?


👨🏻‍💻 Jett Chen


Claude Code 的理念不一样,它代表了对未来软件工程师工作方式的最雄心勃勃的想象。我觉得它最重要的作用是体现 Opus 模型有多好,而不是它的命令行工具有多好。我欣赏 Opus 模型,但不太喜欢 Claude Code 的 CLI 本身。


我喜欢 Codex 有几点。


第一,它的核心 agent 是开源的,命令行和 agent loop 都放在 GitHub 上。


第二,如果你用它们的桌面端 APP,会发现它的打磨程度非常好,远超 Claude Code 的桌面端。他们之前收购了一个叫 Sky 的团队,是做 Apple Shortcuts 的,OpenAI 会雇佣这样的人来做出非常精致的产品。比如他们最近出的 Codex Pets,就既精致又好玩。包括 Codex 的电脑和浏览器使用,都做得非常 polish。


我觉得 Codex 也是第一个把高并行、多 agent 同时工作的形态作为主要 UI 的产品。


最后,OpenAI 在 Infra 层面的优势比 Anthropic 大得多。所以用 Codex,模型效果差不多,但稳定很多。


OpenAI 可以补贴更多的算力,而 Anthropic 现在投资不够,没法补贴,导致了一些奇怪的操作,比如如果你的代码库里有 OpenClaw 或者 Hermes agent,它可能会收你 10 倍的价格。


👦🏻 Koji


如果现在可以买他们的二级市场股票,你会买 OpenAI 还是 Anthropic?


👨🏻‍💻 Jett Chen


我感觉会买 OpenAI。


👦🏻 Koji


All in OpenAI?


👨🏻‍💻 Jett Chen


可能 80% OpenAI,20% Anthropic。


👦🏻 Koji


什么原因?


👨🏻‍💻 Jett Chen


他们两家公司都会发展得很好,但我更喜欢 OpenAI 在做的事。我觉得 Anthropic 做得最好的是他们的可解释性和社会影响部门。


但 Anthropic 在很多模型上过于有主见,无论是从道德上还是具体使用习惯上。


相比之下,OpenAI 的理念是,在最小的限制之下,用户想怎么用模型就怎么用。我个人更偏向自由意志,所以更喜欢 OpenAI 这种更少预设的价值观。另外,我觉得 OpenAI 在算力上会占有优势。


🧑🏻‍💻 John Yang


如果是我做投资决策,在当前的估值下我两个都不会买。但我个人其实更偏好 Anthropic,因为他们对安全的承诺。


👦🏻 Koji


你们怎么看“模型吞噬一切”这个说法?


👨🏻‍💻 Jett Chen


你完全可以 argue,未来很多公司会提供差不多的模型,然后产品的差异性还是体现在产品公司身上。这不一定会成真,但存在这种可能性。


Cursor 就是一个很好的例子,他们一开始是产品公司,现在既是产品公司又是模型公司,可以用 XAI 的算力去训练前沿的编程模型。


所以我觉得,公司不能把自己局限为“模型公司”或“产品公司”,通常两者都是。


👦🏻 Koji


如果给你们一笔 300 万美元的虚拟资金,可以投三个你们认识的团队,你们会投谁?


🧑🏻‍💻 John Yang


Slock 很好,我会押注在 Richard 身上。然后是机器人公司,我认为那绝对会成为一个大赛道。


最后,我相信,下一个像 Cursor 一样伟大的公司会诞生在消费领域,而不是企业级 AI 领域。Paperboy 当然就在这个市场里,因为我遵循这个信念,但消费市场太大了,机会无数。


👨🏻‍💻 Jett Chen


我也会投机器人。在自动化知识工作的浪潮之后,下一个最大的机会很可能就是用模型能力去改造物理世界。


还有一个是安全。AI 加安全是个非常好的领域,需求基本上是无限的。只要模型越强,攻击和防御的能力都会变强,这个市场非常大。


🧑🏻‍💻 John Yang


随之而来的问题是,你该如何与同样会涉足该业务的 Anthropic 竞争?


👨🏻‍💻 Jett Chen


Anthropic 和 OpenAI 肯定会有最好的模型。问题在于,有了最好的模型之后,你的下一个优化层是什么?是做更好的工具链吗?是把人类安全研究员的各种启发式经验教给 Agent 吗?还是去做 Infra,比如构建一个庞大的多 agent 系统去不断挖漏洞?这里的探索空间非常大。


这是一个非常精英化的市场,只要你的产品挖漏洞的效率比别人高 10%,它就非常有价值。


🧑🏻‍💻 John Yang


我们还没聊到长时程模型,但 Harvey 刚发布了长时程的法律 AI。还有另一个 John Yang 最近也发布了类似 SWE-bench 的东西,能根据一系列规格说明书,去重现和完成整个代码库。这种趋势不会消失。


👨🏻‍💻 Jett Chen


安全能力对国家安全至关重要。对创业来说,这也是个很好的机会。


因为拥有最强模型的国家,会有动机说“这个模型只有我们自己能用”。那么其他国家怎么办?很多不同的国家或利益集团都需要这种模型,所以这个市场非常大。


👦🏻 Koji


最后一个问题,你们期待一年后的此刻,Paperboy 是一个什么样的状态?有什么期待,或者害怕做错的事?


🧑🏻‍💻 John Yang


希望我们不再每天都亏钱了。我想继续招聘我能找到的最优秀的人才,所以人才密度必须比现在更高。


可以讨论的细节太多了,但从团队和商业角度看,我们需要正向现金流,也需要继续打造一支更强的团队。


👦🏻 Koji


好的,谢谢二位。


🧑🏻‍💻 John Yang


谢谢。


👨🏻‍💻 Jett Chen


谢谢。


文章来自于微信公众号 "十字路口Crossing",作者 "十字路口Crossing"

1
OWL

【开源免费】OWL是一个完全开源免费的通用智能体项目。它可以远程开Ubuntu容器、自动挂载数据、做规划、执行任务,堪称「云端超级打工人」而且做到了开源界GAIA性能天花板,达到了57.7%,超越Huggingface 提出的Open Deep Research 55.15%的表现。

项目地址:GitHub:https://github.com/camel-ai/owl

2
OpenManus

【开源免费】OpenManus 目前支持在你的电脑上完成很多任务,包括网页浏览,文件操作,写代码等。OpenManus 使用了传统的 ReAct 的模式,这样的优势是基于当前的状态进行决策,上下文和记忆方便管理,无需单独处理。需要注意,Manus 有使用 Plan 进行规划。

项目地址:https://github.com/mannaandpoem/OpenManus


3
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


4
AI工作流

【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!

项目地址:https://github.com/coze-dev/coze-studio


【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/付费

5
AI数据分析

【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。

项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file

本地安装:https://www.deepbi.com/

【开源免费airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。

项目地址:https://github.com/hitsz-ids/airda

6
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

7
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0

添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案