太酷了,这个 Agent 的体验。感觉这是最近除了 Codex 外,最让我惊喜的 Agent 产品了。今天想和大家分享一下。
最近这周我特别忙,团队新启动了一个 AI 产品,还有一个 AI Maker 大会,所以我每天在各个微信群、飞书群以及会议之间来回切换。
昨晚下班的时候,我突然想起前两天装了一个叫 Vida 的客户端 Agent。我是在 X 上看到有人推荐的,装完之后就把这事忘了。
于是随手问了它一句:最近这段时间,在 AI Maker Summit 上,我做过哪些重要的决策,你认为我现在需要和团队重点沟通什么。

结果它开始疯狂输出,给我总结了最近 AI Maker Summit 上我做过的四个重要决策。
我去,看到这里我倒吸一口冷气。
6 月 17 日,我确实在群里和团队说过网站的域名结构调整,然后端午假期,要彻底重构了整个网站的代码,并加入了 SSG。
Vida 全部总结了出来。

更夸张的是,它根据对我工作情况的了解,立马罗列了我需要和团队的重点沟通事项。

看到这里,已经晚上 8 点多了。浑身疲惫,我试探着继续问 Vida,让它帮我看看还有哪些紧急的待办任务。我靠,它居然回答了出来。

继续,我说既然你都知道我还有哪些事情还没干完,那就直接干吧,帮我把讲师沟通文档写出来。
等了不到一分钟,再切回软件一看,初稿已经 ready 了。

这真的超出我预期。
注意,我从来没有告诉过它 AI Maker Summit 是什么,也没有告诉过它我们的讲师沟通流程是什么,更没有把相关文档喂给它。理论上,它什么都不知道。
但你看它生成出来的内容,它知道 AI Maker Summit 的定位是什么,知道我们有哪些专题,知道讲师沟通大概会经过哪些环节,甚至连时间节点和整体节奏都基本是对的。
很明显,Vida 能够读取我的屏幕。这件事就变得有意思了。因为一旦可以读取屏幕,AI 其实就开始看到一整段连续的工作过程。
这就是屏幕上下文的价值。
之前 AI 对我们的了解,基本上都来自两种方式,一种是我们在对话里说的内容。一种是我们接入进去的第三方系统。但本质上,这些信息都是我们主动告诉它的。
但如果它能看到我们屏幕的话,这事就会变得完全不一样。比如我打开了哪些文档,在群里和谁沟通,说过什么话。
有了这些真实的上下文之后,Vida 就可以彻底理解我在做什么,以及怎么做的,然后进一步给出具体的工作建议,甚至一步到位,帮我搞定某件事。
我能猜到,很多人看到这里,第一反应肯定是:隐私怎么办?
这个问题确实绕不开。
事实上,这条路线 OpenAI 也在尝试,ChatGPT Pro 也已经具备读取屏幕的能力,只是开放范围有限,而且成本较高。
欧洲、英国等地区暂未开放相关能力,可能也与监管和隐私要求有关。

我觉得这本质上是一种个人选择:如果希望 Agent 获得更强的上下文能力,就需要开放更多信息。如果不愿意开放,那么它对你的理解自然会存在边界。
我比较放心 Vida 的是,它在隐私条款里明确写着用户的语音和屏幕数据均都是实时处理,不会在服务器保存原始输入,也不会用这些数据来优化他们的模型。
这部分我后来还专门做了一个测试。我用同一个账号,在另一台全新的电脑上登录 Vida。
结果发现,它对我之前那些工作内容完全不了解。无论是 AI Maker Summit 的信息,还是之前积累下来的那些工作上下文,它都不知道。
这进一步验证了,所有的信息只存在本地,不会到云端。
接下来,我再给大家看一个真实的 Case。
我让 Vida 坦诚地告诉我,从它的视角来看,我有哪些工作流程是可以优化的。下面这是他的回复截图的一部分。

看到这里的时候,我又感受到了 Aha Moment。
因为让 AI 总结信息不稀奇,让 AI 写文档也不稀奇。但让 AI 反过来分析我的工作习惯,其实是另一回事。要做到这一点,有个前提:
它得先理解我平时是怎么工作的。
比如每天在哪些工具之间来回切换,哪些事情花的时间最多,哪些任务经常被打断,哪些工作其实可以标准化,但现在还靠自己手工处理。
这些东西,如果只是看几段聊天记录,根本分析不出来。
但 Vida 不一样,它看到的是我真实的工作流。所以当它给我提建议的时候,那种感觉有点像一个跟我深度协作了好几天的人,坐下来认真复盘我的工作。
刚刚截图里提到的团队内部对账流程,我之前根本没想过应该把这事结构化。但你看 Vida,它很敏锐的意识到了这里的工作流可以优化。
写到这里,我突然意识到,很多时候,我对自己的工作状态其实并没有想象中那么了解。
每天都在忙,但时间到底花在了哪里,哪些事情在重复消耗自己,身在局中,用惯性在做事情,未必真的看得清楚。

Vida 反而能够从一个更客观的视角把这些问题指出来。指出来还不够,它还可以直接帮我创建文档。

除了在 Vida 的客户端里直接聊天,它其实还有很多玩法。比如在任何可以输入文字的地方,我都可以直接按下 Option + I,让它帮我生成初稿。
因为 Vida 已经持续观察了我一段时间,它对我的工作内容、沟通对象以及写作习惯已经有了不少了解。
所以我根本不用把背景讲完整,只需要简单说一句我要干什么,它就知道我大概想表达什么。
我录个屏,大家看看。这次更神,我直接说确认了和朋飞老师的合作,没有说是什么合作。它也能理解,而且完整的把需要写到邮件里的信息给我写了出来。

看完这些 Case 之后,我觉得 Vida 这个产品真的特别有意思。
甚至我隐隐觉得,屏幕上下文,这可能会是客户端 Agent 接下来往前走的一个重要方向。因为它解决的是 Context 问题。
以前很多 Agent 像一个特别聪明的新人,能力很强,但对我们的工作一无所知。所以每次都得重新同步项目进展,重新补充上下文。
这也是为什么今年 OpenClaw 火的时候,大家一直在说养虾。养虾的过程就跟处对象一样,让对方慢慢了解我们。
而 Vida 因为能看到我们的真实工作流程,所以,它很自然的就知道我最近在忙什么,这样很多事情都可以直接开始。
我今天体验完之后,甚至第一时间就在团队群里说:大家都可以装一个 Vida,认真用一周,然后让它评价一下自己的工作流,看看哪些地方还能优化。
对了, Vida 这个产品现在可以免费试用,大家可以下载去玩。
https://vida.app/
另外他们还发起了一个公开挑战,要把100个实用场景的交付成果做到SOTA,官网会更新进展,看来这产品的边界还会不断扩。

另外,再给大家分享一个我的场景,我感觉它特别适合帮我们写 SOP。
我发现几乎所有团队都有一个共同的问题,大家都知道 SOP 很重要,但就是懒得写。
有的同事可以把事情做得很好,但你让他把这套流程完整的总结出来,他似乎没有那个能力。
像我们公司,很多工作流程其实已经跑得很成熟了,但就是一直没有系统地沉淀下来。
以前这是个老大难问题,现在突然变简单了,因为 Vida 本来就看过整个过程。它知道我是怎么 Vibe Coding 的,怎么查资料的,怎么写文章的。
我可以直接告诉它:帮我把某个工作流整理成 SOP。它可以直接把初稿写出来。
这也是有屏幕上下文之后可以催生出的新场景。
很多人觉得 Agent 的应用场景有限,除了 Coding 和数据分析,好像没有特别强的需求。但我越来越觉得,问题未必是能力不够,而是上下文不够。
当上下文足够丰富时,很多原本琐碎的工作都可以交给 Agent 完成,甚至还能分析一天的工作方式、发现低效环节、优化流程,或者自动整理写作流程并沉淀成 SOP 供团队学习。
过去这些事情都需要自己手动总结,现在它已经能够根据真实工作过程自动完成。
太有意思了。这个时代,怎么能突然冒出来这么多有趣有用的产品呢?
文章来自于"AI产品阿颖",作者 "阿颖"。
【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!
项目地址:https://github.com/coze-dev/coze-studio
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md