字节快手，AI视频“狭路又相逢”

AI资讯 2025-04-16 09:47

+9888 阅读

在AI To C视频产品的“追逐战”中，快手先声夺人，字节奋起直追，但相比短期内的“快与慢”，确立赛跑的姿势更加重要。

2025年4月中旬，快手和字节这两个老对手，在AI视频生成领域，再次狭路相逢。

先是4月14日，字节跳动的视频生成基础模型Seaweed，低调上线了官网，还释出了技术报告。

字节快手，AI视频“狭路又相逢”

△Seaweed生成的视频。图源：Seaweed官网

“四两拨千斤”，是字节这次在视频领域，想要达到的效果。首发的模型Seaweed-7B，不仅用70亿的参数，实现了超越140亿参数同类模型的效果，训练效率也相当高：同类模型的训练普遍要百万GPU小时，Seaweed-7B只用了66.5万 H100 GPU小时。

字节快手，AI视频“狭路又相逢”

相比字节的低调，快手想在视频生成领域营造的声势，要浩大的多。

4月15日，在发布会上，快手高级副总裁、主站业务与社区科学线负责人盖坤，对着到场的几百人，用极高的评价为快手在视频生成领域的成绩定调：

“‘可灵’吹响了整个视频生成赛道的挑战哨。”“在我们之后，各个厂商都开始发视频生成模型。”

的确，快手在2024年6月6日的视频生成模型“可灵”，在一众“Sora期货”中，靠着大方的免费试用，创造了上线三个月服务超260万用户的记录。

这也是字节和快手在视频领域的首次交手。“可灵”的发布，一度将字节置于追赶者的位置。直到2024年11月8日，字节才回到视频领域第一梯队：Seaweed和PixelDance上线了视频生成平台即梦AI。

不少业内人给出的评价是：2024年，在视频性能上，奋起猛追的字节，最后与快手基本打平。

一年后的这次同台较量，快手显然也不肯让出技术第一的位置。

“全球大幅领先。”“持续领先。”“请允许我把这两句话再重复一遍。”

交出新答卷时，盖坤的几句话再次炒热了场子。他宣布了快手在多模态领域的最新探索成果：图像生成基座模型“可图2.0”，视频生成基座模型“可灵2.0”，以及多模态编辑功能MVL。

字节快手，AI视频“狭路又相逢”

△“可灵2.0”生成的视频。图源：快手

在视频生成能力上，“可灵2.0”的文生视频和图生视频能力，均超过了谷歌的视频模型Veo2。在和老对手Sora的较量中，“可灵2.0”文生视频模型的胜负比甚至达到了367%。

字节快手，AI视频“狭路又相逢”

DeepSeek的掀桌，已经让行业意识到，模型决定了AI产品的上限。2025年，不少厂商的动作都是：回归模型。

字节和快手，当下对AI视频生成产品的野望并不相同。据了解，字节对“即梦”的期望，是AI时代的抖音，一个未来更ToC的产品。而快手，则将商业化的希望，主要押注在B端。

即便如此，2025年，两家厂商的共识依然是：打磨视频基座模型，抢滩第一梯队。

据《晚点》报道，字节图像视频创作平台“即梦”负责人张楠的2025年OKR，其中一条为重点打磨模型效果。2025年“可灵”团队的目标，也浓缩在盖坤说出的4个字中：“持续领先”。

对于字节和快手而言，至少在技术层面，视频生成领域的战火只会愈燃愈旺。

拼性能，更拼落地

4月的这次“交手”，对字节快手来说，绝不仅仅是一次视频模型性能的比拼。

视频模型落地难，已经是老生常谈的困境。除了模型效果不及预期外，贵，是视频模型的通病。一个典型的案例是，为了覆盖高昂的推理成本，OpenAI Sora推出的订阅费，高达200美元。

可见的是，相较于“炫技”的2024年，2025年的视频模型竞技场，更突出一个实用和实惠。

比如，字节的Seaweed-7B虽然在性能上略逊于快手的上一代模型“可灵1.6”，但胜在部署成本相当低：仅40GB显存的单GPU，就能实现高分辨率（1280x720）视频的生成。

这意味着，中小团队和个人创作者，也能负担得起AI视频创作。

在实用性上，字节和快手的共识是：只有一个视频生成模型，目前是无法满足用户的创作需求的。

“可灵2.0”的发布会上，快手同时发布了图像生成模型“可图2.0”。这个增强了指令遵循能力和审美能力的模型，在竞技场上超越了Midjourney v7、Rave和FLUX1.1 pro三个主流模型。

字节快手，AI视频“狭路又相逢”

△“可图2.0”生成的图片，Prompt：摆满了白色桌子的宴会厅，周围坐着的人在享用一顿美餐。图源：快手

在快手技术副总裁、可灵AI负责人张迪看来，图像能力，是视频模型落地中不可缺少的一步。

他举了一组数据：用“可灵”生成的视频中，图生视频占到了85%。图生视频的高比例说明，在视频创作的实际过程中，更多的用户青睐于用图片确定风格、添加关键帧，以获取更为稳定的视频生成效果。

“可灵”这次发布的“多模态编辑MVL功能”，据工作人员介绍，也是为了满足创作者的实时视频编辑需求。

字节快手，AI视频“狭路又相逢”

多模态编辑MVL功能支持的不仅仅是文字Prompt，还支持图像和视频模态的动作描述文件。比如，用户可以通过上传一段新视频，将新视频中的人物，添加到原有视频上。

快手注重图像，字节则发挥了文本处理上的优势。Seaweed-7B结合了字节的“长上下文调优技术”和长叙述视频生成技术“VideoAuteur”，让生成的视频可以基于用户的全局文本描述和分镜描述，保持一致性。

“全村的希望”和“一个都不能落下”

字节和快手，在视频领域登顶的野望相同，但其折射出的业务处境，却是不同的。

大众耳熟能详的“精兵作战”的故事之外，“可灵”从诞生到出圈，在快手的业务发展轨迹中，带有一定的偶然性。

据《智能涌现》了解，直到2024年初，文生视频的一项关键技术，才被可灵团队攻破。2024年3月，盖坤才第一次见到“可灵”的demo。

公司对AI的商业化预期，本来也并不高。《智能涌现》获悉，快手商业化业务负责人王剑伟（Thomas）在2024年Q4的OKR中，“AI商业化”并非“O（Objectives，目标）”，仅仅是“增长”下的一个“kr（ Key Results，关键成果）”。

快手已经很久没有新故事了。作为同样靠短视频业务成长起来的互联网公司，快手的业务版图，相较于不断开疆拓土的字节，并不广阔。直到2023年，快手营收的核心，还是围绕短视频平台的线上营销、直播和电商。

但“可灵”的出现，让快手看到了短视频之外的新增长曲线。

快手财报显示，从2024年9月开放API服务，到2025年2月，可灵AI的累计营收已经超过1亿元。在用户层面，盖坤在这次发布会上透露，目前“可灵”已经拥有2223万用户，月活用户增长了25倍，全球的企业和开发者客户数量，也已经超过了15万。

不仅自己造血，“可灵”也在撬动快手的其他业务。快手商业化营销服务平台“磁力引擎”的一名员工曾对《智能涌现》表示，“可灵”给快手的广告业务带来了明显的增长：

“大客户每个月花十几万做投流，广告物料就可以用AI生成。一个剪辑师一天最多剪10条广告物料，但是可灵可以生成几千条，我们一天内就能把几千条广告物料，用算法分发到用户的推荐流里。”

“可灵2.0”的发布，对快手来说，是“全村希望”的延续。

比起单点奇袭的快手，字节在视频生成赛道，有着更重的好学生包袱。

两年来，从人、算力，到金钱，字节在AI领域的重兵投入有目共睹。但文本模型领域有DeepSeek，视频模型领域有可灵，语音模型和MiniMax的海螺AI打得难舍难分——字节什么都抓了，但好像什么也没抓牢。

痛定思痛，2025年开春以来，字节内部已经掀起了一场改革。2025年3月，AI部门“Seed”的新帅、原Google Fellow吴永辉在部门全员会上提到，要进一步加强组织文化，打造开放、包容、自信的团队研究氛围；要提高技术开放程度。

Seaweed-7B的发布，是字节AI改革后的一个注脚。

继3月豆包首次公开文生图技术报告后，Seaweed也成了字节在视频领域首个公开技术报告的模型。值得注意的是，曾被字节视作机密的研究团队，蒋路、冯佳时、杨振恒、杨建超，这次也以技术报告署名的形式，首次集体走到台前。

重振旗鼓后，双方的较量，才刚刚开始。

文章来自微信公众号 “ 智能涌现 “，作者周鑫雨

字节快手，AI视频“狭路又相逢”

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。

项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0

无人直播

【开源免费】VideoChat是一个开源数字人实时对话，该项目支持支持语音输入和实时对话，数字人形象可自定义等功能，首次对话延迟低至3s。

项目地址：https://github.com/Henry-23/VideoChat

在线体验：https://www.modelscope.cn/studios/AI-ModelScope/video_chat

【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案，生成数字人形象进行直播，并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址：https://github.com/PeterH0323/Streamer-Sales