千万美元ARR后，为什么押注视频编辑Agent？

千万美元ARR后，为什么押注视频编辑Agent？｜对话Buzzy张诗莹

AI资讯 2026-04-28 10:10

+7774 阅读

千万美元ARR后，为什么押注视频编辑Agent？｜对话Buzzy张诗莹

用「局部编辑」技术突围，终结视频创作的「抽卡」时代。

-Intro-

两天前，Creati AI推出了新产品Buzzy。

Buzzy是一个专门做视频修改的AI Agent。用户可以对视频说“把这个人换成我的脸”“把阴天变成黄昏”“去掉背景里的路人”，局部修改，其他不动。几乎同时，公司官宣了由红点领投的B轮融资，金额高达2000万美元。

算下来，这已是张诗莹创业以来的第三次“新开始”。

张诗莹是Creati AI 的联合创始人&CEO。2015年，她先是加入苹果，专注于AirPods和HomePod的系统集成，3年后又去到谷歌做AR硬件系统架构。

这是很多硬件工程师梦寐以求的职业路径：两家硅谷大厂，两个划时代的产品线。

但张诗莹却觉得“难受”。

“大厂不需要你理解为什么，只需要你照做。”她发现自己总在和老板争论，因为不认可上级安排的路线图，“可能我比较不喜欢按照指令做事。”

2020年，已在谷歌工作的张诗莹第一次接触到GAN（生成式对抗网络）。

那时GPT-3刚推出不久，还没有ChatGPT，生成式AI还是少数人的“极客玩具”。一张从无到有生成的图片让她着了迷。她判断：人们消费数字内容的时间在上升，但好内容一直稀缺，例如抖音上很多热门视频是重复的。

“这种供给和需求之间的差距，一定会带来巨大机会。”于是张诗莹下决心创业。

起步之初她是孤军奋战的。尽管创业方向很前沿，但伴随的高风险让偏爱稳定的大厂同事们望而却步，婉拒了张诗莹的创业邀请。

同年8月，她通过邮件联系了一位年轻学者——马里千，鲁汶大学博士，师从计算机视觉领域著名学者Luc Van Gool，北大硕士，是最早一批做姿态控制人体生成的研究者。

当时二人线上沟通并约定：只要有电商客户愿意为ZMO.ai买单，就立刻辞职创业。很快，第一批付费客户验证了他们的设想，两人果断离职，共同成立了ZMO.ai。

简单来说，ZMO.ai主要面向时尚电商，提供AI虚拟模特图和图片生成服务。团队拿到了高瓴资本领投的800万美元A轮融资，MAU（月活跃用户）曾达到700万。

但一个核心问题浮现：庞大的流量并没有带来预期的商业转化。

“很多用户是for fun，不是真的在工作场景用。图片成本低，自己也能PS，付费意愿不高。”张诗莹反思，当时没有把付费当北极星指标，“AI产品跟互联网产品不一样，token消耗有成本，用户不付费，公司撑不下去。”

于是她调整了方向。2024年初，团队开始做Creati：从图片转向视频，从网页端转向手机端。Creati在手机上一键把商品图变成广告视频，同时用AI特效做病毒传播。

同年，周蕴怡以联合创始人身份加入，她曾将VivaCut做到千万日活，并从0到1推动多款产品累计下载量突破10亿。

千万美元ARR后，为什么押注视频编辑Agent？｜对话Buzzy张诗莹

从左到右分别为：马里千、张诗莹、周蕴怡

一年内，Creati收获了1000万用户、千万美元ARR。

但很快又遇到了新问题。

当前，AI生成的视频往往大体不错，但只要一处细节崩坏，就得全部推倒重来，用户只能像拆盲盒一样无奈地继续“抽卡”。而精准的视频编辑功能就是针对这一痛点：它允许用户跳过重新生成的环节，直接对局部进行准确修改，例如单独替换视频中人物的衣服。

这个能力也同样覆盖实拍视频的修改流程。

以往自己拍的视频，一旦出现瑕疵往往需要全部重拍；而现在，用户可以直接上传实拍素材，通过指令让Agent完成局部替换，比如将画面里的白色布艺沙发精准修改为棕色皮质沙发。

“在2026年，不应该还用AE、PR或者重拍的方式，”张诗莹说，“视频编辑是生成生态里必不可少的一环。所以才有了今天发布的Buzzy。”

但只解决痛点还不够，她思考得更远：当未来AI什么都能做、算力几乎免费时，人的价值还剩什么？

对此张诗莹的答案是——品味。“AI做十个方案，得靠人来选。”她希望把品味变成可交易的资产，“就像大家调用‘乔布斯skill’。”

01.

放下流量指标，一年实现千万美元ARR

新物种：ZMO.ai时期遇到过“高MAU、低付费”的困境，你们当时怎么处理的？

张诗莹： ZMO.ai一开始做to大B，付费不错。后来我们想扩大盘子，做toC，把用户量当成了北极星指标，结果发现很多人进来只用不付费。问题在哪？

第一，ZMO.ai主打图片，很多用户就是觉得好玩、图个新鲜，不是真要在工作中用；第二，图片成本低，商家自己也能PS，付费意愿不高。

当时我们没把付费当核心指标，后来才意识到不对——互联网产品可以做大DAU不付费，边际成本低；但AI不一样，token消耗摆在那，用户不付费公司撑不久。所以后来我们学到一个教训：付费才是衡量AI产品价值的核心指标。产品也不能是for fun的，就像你不会想给抖音付费。

新物种：所以你们转向去做Creati？

张诗莹：对。一是从图片到视频，2024年初视频模型刚起来，我们觉得这是有苗头的方向。视频比图片难搞多了，图片你还能P一下，视频要弄出来很难

二是我们看好信息流一定会从文字到图片再到视频。现在很多内容不是视频，只是因为视频太贵了。如果成本是零，人类接受信息最快的方式就是视频。我在谷歌就发现，很多人搜索已经不想看文字了，要么问大模型，要么直接搜抖音、YouTube，因为视频人脑更好理解。

新物种：放弃ZMO.ai那么多用户，团队内部有争议吗？

张诗莹：有，挺痛苦的。我们不到20个人，不可能同时做两个产品。

ZMO.ai虽然不怎么赚钱，但用户量很大，放弃它需要蛮大的勇气。团队里吵得很厉害——做了那么多年白费了？图片也有它的用户群。顺境时没矛盾，方向一变就容易出问题。大家进来时说做A，现在A还行但不够好，要做B了，B是不是好方向？这很容易让团队崩塌。

我的感受是，你不能指望没有冲突、没有pivot（转向），你得默认这些会发生，然后想好怎么解决。我们的做法是：大家做研究，看新方向到底怎么样，同时盯着长期大目标——我们短期有点成绩，但长期想做成多大的事、产生多大的影响力。

图片这块，从stable diffusion到midjourney，我们能感觉到在应用层能做的事越来越少了，用户自己搭一个也能用。所以大家把东西摆出来讨论，最后按大目标走。最重要的是，要有冲突解决机制和共同目标。

新物种：Creati从开始做到有成果，过程是怎么样的？

张诗莹： Creati是2024年初开始做，4月底上线，一年内做到了1000万用户，现在大概2500万。它踩中了几个点。

第一，视频是大方向，用户也认同视频传播力更强。

第二，瞄准了移动端。我们有很大一波小商家，他们不用专业相机，就用手机拍。我们调研时说手机上没有一个好用的产品能直接拍商品图、一键变成广告视频、然后直接上传。手机端是我们踩中的大点，Creati就在手机上帮他们完成全流程。

第三，用户不会写prompt（提示词）。这事直到今天我也觉得非常痛，很多用户是博主、up主，他们愿意花时间钻研prompt，但不愿意花太多时间，毕竟精力在内容创作、卖货、跑广告上。能留给AI的时间，他们希望半小时搞定，而不是搞一天。

Creati做的就是帮他们节约写prompt的时间，做了一堆prompt模板，让用户一键生成。这几件事加起来，让Creati的用户群跟别人不一样——我们不是那种写长篇prompt的用户，更多的是手机上快速出内容。这也是Creati能快速增长的主要原因。

Creati的北极星指标是付费，还有一个是用户满意度。用户付费之后，是否觉得内容真的好用，能不能用于他的广告或TikTok。下载率反映的是用户对内容的最终满意度。我们后来通过很多内部算法和流程调整，把下载率从5%提到了50%。

新物种：Creati的C端病毒传播是怎么做的？

张诗莹：两条腿走路。一是我们的创作者社区，有一些长期合作的、特别愿意写prompt的人，他们会去看当下什么内容比较火，做出一些病毒式爆款的内容模板给用户用。对于这些创作者，我们有分佣的激励方式，即模板被越多的人使用，拿到的钱越多，以此激励他们去做爆款模板。

另一个是我们官方自己也会根据用户创作的数据，去看用户创作的东西里哪些比较有规律、大家比较喜欢，然后基于这些苗头创作出新的模板。这些病毒式传播的模板能够帮助我们快速获得用户增长。

Creati在一年以内就实现了两个里程碑，一个是千万用户，一个是千万ARR，二者是正相关的。

02.

从抽卡到修改：为什么视频编辑是必选项

新物种：Creati已经成功了，为什么很快又做了Buzzy？

张诗莹：有两个原因。首先，Creati转Buzzy跟ZMO转Creati不一样。ZMO不做了，但Buzzy是新产品线，Creati继续做。做Buzzy是因为我们看到了视频生成的两个痛点。

第一个是抽卡：用户生成一个视频，大部分还行，但有一小块不对或者有AI味重，为了让它能用，得全部重抽一遍。如果能修改，只改那一小块，能省太多时间。

第二个是用户自己拍的视频：嘴瓢了、说错台词、某一幕没拍好，就得全部重拍。我们见过拍跳舞视频的用户，跳无数遍才能发，跟抽卡一样痛苦。

修改人物表情

所以Buzzy要解决视频修改的问题。视频编辑是生成生态里必不可少的一环。在2026年，不应该还用AE、PR或者重拍。Buzzy不是Creati的替代，而是我们认为修改是必须的流程，所以单独推出来。

新物种：那为什么不干脆直接整合进Creati？

张诗莹： 用户心智不一样。Creati是做生成的，Buzzy是做修改的。你跟用户说又能生成又能修改，他理解不了。就像你不会用CapCut去生成视频，这就是定位问题。

新物种：但如果开源模型明天出一个重大更新，Buzzy会被“覆盖”吗？

张诗莹： 不会。第一，Buzzy大量处理的是用户自己拍的视频，不是AI生成的。比如改眼神、去路人、改天气、多视角、运镜，这些都是后期精修，叫local editing（局部编辑），大部分AI生成软件是全部重新生成，不是编辑。

改变拍摄视角

第二，即使对AI生成的视频，用户的需求也是模糊的。他只会说“拍个都市爱情狗血电影”，拍出来不是他要的，他得看到结果再调整。多轮修改是人类的习惯，这也是为什么甲方乙方总在拉扯。

新物种：那Buzzy的目标用户是谁？

张诗莹： C端和B端都有，主要是B端和创作者（小红书、抖音、B站博主）。

B端比如商家换SKU，他们只拍了一组白色布艺沙发的广告，但有不同颜色、材质多个SKU，我们让用户上传不同材质图，基于它修改视频，节约拍摄成本；还有改台词，不同商品卖点不一样，价格不一样，台词得相应改；还有AB测试，商家不确定这个博主、这个背景对转化率有没有影响，需要大量AB测试去改。

改变广告内容

新物种：Buzzy还有个特点是“Agent帮你刷TikTok/Ins找灵感”。你们的Agent和TikTok的推荐算法有什么本质区别？

张诗莹：我们的重点是视频编辑修改，灵感Agent相当于一个小的功能点。

它的逻辑是：用户刷到的和他想做的往往不是一类，比如爱看跳舞的人可能是卖货的。现在很多灵感来自刷社媒的碎片瞬间，所以Buzzy agent像个手机上的OpenClaw，你刷到好玩的视频一键分享给它，它先理解这个视频：梗是什么、为什么火，然后全网帮你刷类似的，汇集到灵感板上。

核心是视频理解，即AI要能get到梗。比如一个视频：人在听歌，朋友被掳走了都不知道。AI一开始只理解“两个人在走，一个人被弄走了”，笑点完全没抓到。我们花很大精力做反馈机制，让AI通过用户反馈逐步理解核心笑点。

新物种：为了实现Buzzy的能力，你们在技术上如何实现的？选了哪些模型，做了哪些微调呢？

张诗莹：技术上分为两大块：视频理解主要用Gemini等大语言模型作为基座模型，上面微调了一个小模型专门理解“梗”，毕竟大模型只知道画面在说什么，但不知道搞笑点在哪；视频生成用目前效果最好的Seedance，上面也调了小模型，因为视频编辑同视频生成要求不太一样，生成的可控性太低，编辑需要很高的一致性。

大部分AI视频编辑器其实是在重新生成，不是局部编辑。以给视频换拍摄视角为例，视角和光线变，但人物和场景不能变，得和原来的视频保持一致，这就需要我们微调自己的一些小模型在上面。

03.

沉淀可交易的「品味skill」

新物种：Buzzy的用户和收费模式是怎么样的？

张诗莹： Buzzy主要针对海外市场，国内也有很多跨境电商会使用。目前的收费模式是以订阅制为主，有不同的档位，视频个数不一样。但我们觉得不一定是最合理的，也在探索新的商业模式。我们希望未来它会更像一个真正的agency，通过你跑的创作者、红人数量、投放量，从市场预算里分佣。

新物种：Buzzy的Agent能看到视频发布后的数据（播放量、互动率）然后自我迭代，这个闭环现在跑通了吗？

张诗莹：这是我们努力的方向。Buzzy后面会是一个全流程的agent，不只是根据你的灵感帮你搜，还要帮你写脚本、做视频规划。

比如如果你跟它说我要做跳手势舞的视频，它就去网上搜最火的给你做。但这些是不是一定适合你的用户群体？不一定，也许你的用户喜欢看跳街舞的。怎么确定？需要数据反馈。

Buzzy可以通过视频修改功能大量做AB测试：先给你生成一个视频，idea可能不那么准，但没关系，我们可以改人、改背景、改台词、改剧情、改商品。改完之后agent自动做很多AB测试，基于测试结果反推：一开始不应该做跳手势舞，应该做跳街舞，音乐应该选A而不是B，然后再帮你scale。通过视频编辑帮助用户大量做AB测试，基于数据再来反推内容方向。

新物种：从ZMO到Creati到Buzzy，整个历程你最大的感受是什么？

张诗莹：我一直做生成式AI，经历了从无人问津到爆火到现在过于拥挤的全链路。最大的感受是创业者需要有非常快速的适应能力。今天AI世界的变化比当年互联网快多了，每个月都有新模型出来。如果一个创业公司学习速度、变化速度不够快，一定会被淘汰。我很难想象在我刚创业的时候能想到今天能做到这样，没想到会这么快，也没想到大家都拥进来做这个事情。

第二，还是要围绕用户需求来做。有些创业公司做得非常fancy但没人用，有些做得实在但给用户的附加价值不大。今天我们也不敢说AI的终局到底是什么，还在不断变化。但变要围着用户变，用户不愿意付费，说明没有价值。

新物种：展望未来1-3年，你觉得AI视频赛道会变成什么样？你观察到了什么趋势？

张诗莹： 当AI足够强，算力越来越便宜直到接近不要钱、AI什么都能做的时候，人在内容创作里最重要的角色是品味。

AI可以做创意、脚本、视频，但它没有办法代替人的品味。它做了10个方案，还是得靠人来选哪一个好，每个人的品味不一样。

Buzzy的agent最后沉淀的是人的品味——你非常喜欢做纪录片，你知道怎么做纪录片，你就会指导你的agent：素材怎么收集、脚本怎么写、内容怎么拍、怎么上线。你调教出来的agent就知道纪录片的品味是什么样的，知道什么是好的。品味这件事很难用agent替代，还是得靠人。

未来Buzzy的agent沉淀了不同用户的taste，我们想把这个taste沉淀成像skill一样的东西，它是可以交易的。有些人的agent特别懂大片，有些人的agent特别懂跳舞视频。当你需要某一种taste的时候，你可以从别人那里买。就像“乔布斯skill”，不少人认为乔布斯对产品的taste特别高，就会问“乔布斯skill”，让它来告诉你什么样的产品是好的。

文中图片/视频由受访者提供。

排版运营 / Teagan

- End -

文章来自于微信公众号 "新物种Sinovum"，作者 "新物种Sinovum"

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。

项目地址：https://github.com/Significant-Gravitas/AutoGPT

【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。

项目地址：https://github.com/InternLM/xtuner

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。

项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0