千万美元ARR后,为什么押注视频编辑Agent?|对话Buzzy张诗莹

下载 AITNT APP
🍎 iOS 下载 🤖 Android 下载
正文
资源拓展
千万美元ARR后,为什么押注视频编辑Agent?|对话Buzzy张诗莹
2026-04-28 10:10

千万美元ARR后,为什么押注视频编辑Agent?|对话Buzzy张诗莹


用「局部编辑」技术突围,终结视频创作的「抽卡」时代。

-Intro-


两天前,Creati AI推出了新产品Buzzy。


Buzzy是一个专门做视频修改的AI Agent。用户可以对视频说“把这个人换成我的脸”“把阴天变成黄昏”“去掉背景里的路人”,局部修改,其他不动。几乎同时,公司官宣了由红点领投的B轮融资,金额高达2000万美元。


算下来,这已是张诗莹创业以来的第三次“新开始”。


张诗莹是Creati AI 的联合创始人&CEO。2015年,她先是加入苹果,专注于AirPods和HomePod的系统集成,3年后又去到谷歌做AR硬件系统架构。


这是很多硬件工程师梦寐以求的职业路径:两家硅谷大厂,两个划时代的产品线。


但张诗莹却觉得“难受”。


“大厂不需要你理解为什么,只需要你照做。”她发现自己总在和老板争论,因为不认可上级安排的路线图,“可能我比较不喜欢按照指令做事。”


2020年,已在谷歌工作的张诗莹第一次接触到GAN(生成式对抗网络)。


那时GPT-3刚推出不久,还没有ChatGPT,生成式AI还是少数人的“极客玩具”。一张从无到有生成的图片让她着了迷。她判断:人们消费数字内容的时间在上升,但好内容一直稀缺,例如抖音上很多热门视频是重复的。


“这种供给和需求之间的差距,一定会带来巨大机会。”于是张诗莹下决心创业。


起步之初她是孤军奋战的。尽管创业方向很前沿,但伴随的高风险让偏爱稳定的大厂同事们望而却步,婉拒了张诗莹的创业邀请。


同年8月,她通过邮件联系了一位年轻学者——马里千,鲁汶大学博士,师从计算机视觉领域著名学者Luc Van Gool,北大硕士,是最早一批做姿态控制人体生成的研究者。


当时二人线上沟通并约定:只要有电商客户愿意为ZMO.ai买单,就立刻辞职创业。很快,第一批付费客户验证了他们的设想,两人果断离职,共同成立了ZMO.ai。


简单来说,ZMO.ai主要面向时尚电商,提供AI虚拟模特图和图片生成服务。团队拿到了高瓴资本领投的800万美元A轮融资,MAU(月活跃用户)曾达到700万。


但一个核心问题浮现:庞大的流量并没有带来预期的商业转化。


很多用户是for fun,不是真的在工作场景用。图片成本低,自己也能PS,付费意愿不高。”张诗莹反思,当时没有把付费当北极星指标,“AI产品跟互联网产品不一样,token消耗有成本,用户不付费,公司撑不下去。


于是她调整了方向。2024年初,团队开始做Creati:从图片转向视频,从网页端转向手机端。Creati在手机上一键把商品图变成广告视频,同时用AI特效做病毒传播。


同年,周蕴怡以联合创始人身份加入,她曾将VivaCut做到千万日活,并从0到1推动多款产品累计下载量突破10亿。


千万美元ARR后,为什么押注视频编辑Agent?|对话Buzzy张诗莹


从左到右分别为:马里千、张诗莹、周蕴怡


一年内,Creati收获了1000万用户、千万美元ARR。


但很快又遇到了新问题。


当前,AI生成的视频往往大体不错,但只要一处细节崩坏,就得全部推倒重来,用户只能像拆盲盒一样无奈地继续“抽卡”。而精准的视频编辑功能就是针对这一痛点:它允许用户跳过重新生成的环节,直接对局部进行准确修改,例如单独替换视频中人物的衣服。


这个能力也同样覆盖实拍视频的修改流程。


以往自己拍的视频,一旦出现瑕疵往往需要全部重拍;而现在,用户可以直接上传实拍素材,通过指令让Agent完成局部替换,比如将画面里的白色布艺沙发精准修改为棕色皮质沙发。


千万美元ARR后,为什么押注视频编辑Agent?|对话Buzzy张诗莹


“在2026年,不应该还用AE、PR或者重拍的方式,”张诗莹说,“视频编辑是生成生态里必不可少的一环。所以才有了今天发布的Buzzy。”


但只解决痛点还不够,她思考得更远:当未来AI什么都能做、算力几乎免费时,人的价值还剩什么?


对此张诗莹的答案是——品味。“AI做十个方案,得靠人来选。”她希望把品味变成可交易的资产,“就像大家调用‘乔布斯skill’。”


 01. 


放下流量指标,一年实现千万美元ARR 


新物种:ZMO.ai时期遇到过“高MAU、低付费”的困境,你们当时怎么处理的?


张诗莹: ZMO.ai一开始做to大B,付费不错。后来我们想扩大盘子,做toC,把用户量当成了北极星指标,结果发现很多人进来只用不付费。问题在哪?


第一,ZMO.ai主打图片,很多用户就是觉得好玩、图个新鲜,不是真要在工作中用;第二,图片成本低,商家自己也能PS,付费意愿不高。


当时我们没把付费当核心指标,后来才意识到不对——互联网产品可以做大DAU不付费,边际成本低;但AI不一样,token消耗摆在那,用户不付费公司撑不久。所以后来我们学到一个教训:付费才是衡量AI产品价值的核心指标。产品也不能是for fun的,就像你不会想给抖音付费。


新物种所以你们转向去做Creati?


张诗莹: 对。一是从图片到视频,2024年初视频模型刚起来,我们觉得这是有苗头的方向。视频比图片难搞多了,图片你还能P一下,视频要弄出来很难


二是我们看好信息流一定会从文字到图片再到视频。现在很多内容不是视频,只是因为视频太贵了。如果成本是零,人类接受信息最快的方式就是视频。我在谷歌就发现,很多人搜索已经不想看文字了,要么问大模型,要么直接搜抖音、YouTube,因为视频人脑更好理解。


新物种放弃ZMO.ai那么多用户,团队内部有争议吗?


张诗莹: 有,挺痛苦的。我们不到20个人,不可能同时做两个产品。


ZMO.ai虽然不怎么赚钱,但用户量很大,放弃它需要蛮大的勇气。团队里吵得很厉害——做了那么多年白费了?图片也有它的用户群。顺境时没矛盾,方向一变就容易出问题。大家进来时说做A,现在A还行但不够好,要做B了,B是不是好方向?这很容易让团队崩塌。


我的感受是,你不能指望没有冲突、没有pivot(转向),你得默认这些会发生,然后想好怎么解决。我们的做法是:大家做研究,看新方向到底怎么样,同时盯着长期大目标——我们短期有点成绩,但长期想做成多大的事、产生多大的影响力。


图片这块,从stable diffusion到midjourney,我们能感觉到在应用层能做的事越来越少了,用户自己搭一个也能用。所以大家把东西摆出来讨论,最后按大目标走。最重要的是,要有冲突解决机制和共同目标。


新物种Creati从开始做到有成果,过程是怎么样的?


张诗莹: Creati是2024年初开始做,4月底上线,一年内做到了1000万用户,现在大概2500万。它踩中了几个点。


第一,视频是大方向,用户也认同视频传播力更强。


第二,瞄准了移动端。我们有很大一波小商家,他们不用专业相机,就用手机拍。我们调研时说手机上没有一个好用的产品能直接拍商品图、一键变成广告视频、然后直接上传。手机端是我们踩中的大点,Creati就在手机上帮他们完成全流程。


第三,用户不会写prompt(提示词)。这事直到今天我也觉得非常痛,很多用户是博主、up主,他们愿意花时间钻研prompt,但不愿意花太多时间,毕竟精力在内容创作、卖货、跑广告上。能留给AI的时间,他们希望半小时搞定,而不是搞一天。


Creati做的就是帮他们节约写prompt的时间,做了一堆prompt模板,让用户一键生成。这几件事加起来,让Creati的用户群跟别人不一样——我们不是那种写长篇prompt的用户,更多的是手机上快速出内容。这也是Creati能快速增长的主要原因。


Creati的北极星指标是付费,还有一个是用户满意度。用户付费之后,是否觉得内容真的好用,能不能用于他的广告或TikTok。下载率反映的是用户对内容的最终满意度。我们后来通过很多内部算法和流程调整,把下载率从5%提到了50%。


新物种Creati的C端病毒传播是怎么做的?


张诗莹: 两条腿走路。一是我们的创作者社区,有一些长期合作的、特别愿意写prompt的人,他们会去看当下什么内容比较火,做出一些病毒式爆款的内容模板给用户用。对于这些创作者,我们有分佣的激励方式,即模板被越多的人使用,拿到的钱越多,以此激励他们去做爆款模板。


另一个是我们官方自己也会根据用户创作的数据,去看用户创作的东西里哪些比较有规律、大家比较喜欢,然后基于这些苗头创作出新的模板。这些病毒式传播的模板能够帮助我们快速获得用户增长。


Creati在一年以内就实现了两个里程碑,一个是千万用户,一个是千万ARR,二者是正相关的。


 02. 


从抽卡到修改:为什么视频编辑是必选项 


新物种Creati已经成功了,为什么很快又做了Buzzy?


张诗莹: 有两个原因。首先,Creati转Buzzy跟ZMO转Creati不一样。ZMO不做了,但Buzzy是新产品线,Creati继续做。做Buzzy是因为我们看到了视频生成的两个痛点。


第一个是抽卡:用户生成一个视频,大部分还行,但有一小块不对或者有AI味重,为了让它能用,得全部重抽一遍。如果能修改,只改那一小块,能省太多时间。


第二个是用户自己拍的视频:嘴瓢了、说错台词、某一幕没拍好,就得全部重拍。我们见过拍跳舞视频的用户,跳无数遍才能发,跟抽卡一样痛苦。


千万美元ARR后,为什么押注视频编辑Agent?|对话Buzzy张诗莹


修改人物表情


所以Buzzy要解决视频修改的问题。视频编辑是生成生态里必不可少的一环在2026年,不应该还用AE、PR或者重拍。Buzzy不是Creati的替代,而是我们认为修改是必须的流程,所以单独推出来。


新物种那为什么不干脆直接整合进Creati?


张诗莹: 用户心智不一样。Creati是做生成的,Buzzy是做修改的。你跟用户说又能生成又能修改,他理解不了。就像你不会用CapCut去生成视频,这就是定位问题。


新物种但如果开源模型明天出一个重大更新,Buzzy会被“覆盖”吗? 


张诗莹: 不会。第一,Buzzy大量处理的是用户自己拍的视频,不是AI生成的比如改眼神、去路人、改天气、多视角、运镜,这些都是后期精修,叫local editing(局部编辑),大部分AI生成软件是全部重新生成,不是编辑。


千万美元ARR后,为什么押注视频编辑Agent?|对话Buzzy张诗莹

改变拍摄视角


第二,即使对AI生成的视频,用户的需求也是模糊的。他只会说“拍个都市爱情狗血电影”,拍出来不是他要的,他得看到结果再调整。多轮修改是人类的习惯,这也是为什么甲方乙方总在拉扯。


新物种那Buzzy的目标用户是谁?


张诗莹: C端和B端都有,主要是B端和创作者(小红书、抖音、B站博主)。


B端比如商家换SKU,他们只拍了一组白色布艺沙发的广告,但有不同颜色、材质多个SKU,我们让用户上传不同材质图,基于它修改视频,节约拍摄成本;还有改台词,不同商品卖点不一样,价格不一样,台词得相应改;还有AB测试,商家不确定这个博主、这个背景对转化率有没有影响,需要大量AB测试去改。


千万美元ARR后,为什么押注视频编辑Agent?|对话Buzzy张诗莹


改变广告内容


新物种Buzzy还有个特点是“Agent帮你刷TikTok/Ins找灵感”。你们的Agent和TikTok的推荐算法有什么本质区别? 


张诗莹:我们的重点是视频编辑修改,灵感Agent相当于一个小的功能点。


它的逻辑是:用户刷到的和他想做的往往不是一类,比如爱看跳舞的人可能是卖货的。现在很多灵感来自刷社媒的碎片瞬间,所以Buzzy agent像个手机上的OpenClaw,你刷到好玩的视频一键分享给它,它先理解这个视频:梗是什么、为什么火,然后全网帮你刷类似的,汇集到灵感板上。


核心是视频理解,即AI要能get到梗。比如一个视频:人在听歌,朋友被掳走了都不知道。AI一开始只理解“两个人在走,一个人被弄走了”,笑点完全没抓到。我们花很大精力做反馈机制,让AI通过用户反馈逐步理解核心笑点。


新物种为了实现Buzzy的能力,你们在技术上如何实现的?选了哪些模型,做了哪些微调呢?


张诗莹:技术上分为两大块:视频理解主要用Gemini等大语言模型作为基座模型,上面微调了一个小模型专门理解“梗”,毕竟大模型只知道画面在说什么,但不知道搞笑点在哪;视频生成用目前效果最好的Seedance,上面也调了小模型,因为视频编辑同视频生成要求不太一样,生成的可控性太低,编辑需要很高的一致性。


大部分AI视频编辑器其实是在重新生成,不是局部编辑。以给视频换拍摄视角为例,视角和光线变,但人物和场景不能变,得和原来的视频保持一致,这就需要我们微调自己的一些小模型在上面。


 03. 


沉淀可交易的「品味skill」


新物种:Buzzy的用户和收费模式是怎么样的?


张诗莹: Buzzy主要针对海外市场,国内也有很多跨境电商会使用。目前的收费模式是以订阅制为主,有不同的档位,视频个数不一样。但我们觉得不一定是最合理的,也在探索新的商业模式。我们希望未来它会更像一个真正的agency,通过你跑的创作者、红人数量、投放量,从市场预算里分佣。


新物种Buzzy的Agent能看到视频发布后的数据(播放量、互动率)然后自我迭代,这个闭环现在跑通了吗?


张诗莹:这是我们努力的方向。Buzzy后面会是一个全流程的agent,不只是根据你的灵感帮你搜,还要帮你写脚本、做视频规划。


比如如果你跟它说我要做跳手势舞的视频,它就去网上搜最火的给你做。但这些是不是一定适合你的用户群体?不一定,也许你的用户喜欢看跳街舞的。怎么确定?需要数据反馈。


Buzzy可以通过视频修改功能大量做AB测试:先给你生成一个视频,idea可能不那么准,但没关系,我们可以改人、改背景、改台词、改剧情、改商品。改完之后agent自动做很多AB测试,基于测试结果反推:一开始不应该做跳手势舞,应该做跳街舞,音乐应该选A而不是B,然后再帮你scale。通过视频编辑帮助用户大量做AB测试,基于数据再来反推内容方向。


新物种从ZMO到Creati到Buzzy,整个历程你最大的感受是什么?


张诗莹:我一直做生成式AI,经历了从无人问津到爆火到现在过于拥挤的全链路。最大的感受是创业者需要有非常快速的适应能力。今天AI世界的变化比当年互联网快多了,每个月都有新模型出来。如果一个创业公司学习速度、变化速度不够快,一定会被淘汰。我很难想象在我刚创业的时候能想到今天能做到这样,没想到会这么快,也没想到大家都拥进来做这个事情。


第二,还是要围绕用户需求来做。有些创业公司做得非常fancy但没人用,有些做得实在但给用户的附加价值不大。今天我们也不敢说AI的终局到底是什么,还在不断变化。但变要围着用户变,用户不愿意付费,说明没有价值。


新物种展望未来1-3年,你觉得AI视频赛道会变成什么样?你观察到了什么趋势?


张诗莹: 当AI足够强,算力越来越便宜直到接近不要钱、AI什么都能做的时候,人在内容创作里最重要的角色是品味。


AI可以做创意、脚本、视频,但它没有办法代替人的品味。它做了10个方案,还是得靠人来选哪一个好,每个人的品味不一样。


Buzzy的agent最后沉淀的是人的品味——你非常喜欢做纪录片,你知道怎么做纪录片,你就会指导你的agent:素材怎么收集、脚本怎么写、内容怎么拍、怎么上线。你调教出来的agent就知道纪录片的品味是什么样的,知道什么是好的。品味这件事很难用agent替代,还是得靠人。


未来Buzzy的agent沉淀了不同用户的taste,我们想把这个taste沉淀成像skill一样的东西,它是可以交易的。有些人的agent特别懂大片,有些人的agent特别懂跳舞视频。当你需要某一种taste的时候,你可以从别人那里买。就像“乔布斯skill”,不少人认为乔布斯对产品的taste特别高,就会问“乔布斯skill”,让它来告诉你什么样的产品是好的。


文中图片/视频由受访者提供。


排版运营 / Teagan


- End -


文章来自于微信公众号 "新物种Sinovum",作者 "新物种Sinovum"

1
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

2
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner

3
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0

添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
IOS下载
安卓下载
微信群