字节再推新品，小云雀决战视频AI Agent？

AI资讯 2025-06-20 10:35

+11120 阅读

字节狂推新品

DataEye研究院发现，日前，字节旗下剪映团队推出了一款全新AI应用——小云雀，该应用定位为“内容创作Agent”，包含了智能成片、AI设计等4大功能，用户只需输入文字指令，一句话便可以利用AI自动生成短视频、数字人口播、海报等，主打“创作零门槛”。

那么，小云雀能力具体如何？与字节另一款视频AI即梦相比有何不同？字节又为何要推出这款全新AI应用？

为解答上述问题，DataEye研究院上手体验了小云雀APP，并结合互联网公开资料对上述问题进行分析，以供大家参考。

一、产品体验

（一）应用界面

DataEye研究院体验发现，小云雀APP界面较为简洁，应用左上角为“个人中心”，右上角为“创作记录”，底部为输入框及四大功能按钮：智能成片、数字人视频、AI设计和AI换背景。

字节再推新品，小云雀决战视频AI Agent？

此外，除了底部按钮外，在应用中部左右滑动同样可以切换功能选项。

（二）模型支持

字节再推新品，小云雀决战视频AI Agent？

在模型端，小云雀官方列出了其接入的三款大模型，分别为：豆包大模型、豆包文生图模型、求索对话DeepSeekChat。

（三）功能体验

在功能上，小云雀共有4大功能：智能成片、数字人视频、AI设计和AI换背景，且每个功能均遵循“创作想法——理解分析——创意脚本/设计——剪辑成片/作图结果”的工作流程，并最终输出4条结果供用户选择。

DataEye研究院针对每项功能均进行了测试，并在每项测试结果中挑选一条如下：

①智能成片：

输入：

请帮我做一个桃园三结义的故事，水墨画风格，注意保持人物形象一致性

流程：

字节再推新品，小云雀决战视频AI Agent？

效果：

输出视频在故事主题、画面风格上均遵循了输入指令，但配音有些生硬，且人物形象未能保持一致，如刘关张三人前期均为武将形象，但视频后期饮酒时却均变成了文人形象；关羽还分别出现了红面、绿袍、白衫等多种不同形象，张飞形象也同样存在前后不一的问题。

②数字人视频：

输入：

请帮我做一个鼓励高考生的口播视频

流程：

字节再推新品，小云雀决战视频AI Agent？

效果：

输出视频中数字人形象与真人无异，口型与配音相符合，内容主题也与输入指令相符，但同样存在配音生硬的现象，数字人与配音之间契合度较低。

③AI设计：

输入：

请帮我做一张618大促期间打88折的洗面奶海报

流程：

字节再推新品，小云雀决战视频AI Agent？

效果：

字节再推新品，小云雀决战视频AI Agent？

输出图片在内容上符合输入指令，不过也依旧存在一些瑕疵，如误把“618大促”字样作为产品名印在了洗面奶瓶身，同时画面左下角出现了无意义乱码，但整体效果瑕不掩瑜。

④AI换背景：

输入：

椅子在书店角落，书架上放着书籍、台灯，画面中有柔和的光线

流程：

字节再推新品，小云雀决战视频AI Agent？

效果：

字节再推新品，小云雀决战视频AI Agent？

输出图片整体与输入指令相符，椅子边缘无毛刺，光线柔和，光影自然，同时书架、书籍、台灯等要求均有展现。

DataEye研究院认为： 小云雀的四项功能在体验上均有一定的优势与不足，优势在于操作简单，所有功能均只需一句话下达指令便可完成，应用会自动调用相应大模型分别完成脚本创作、视频剪辑等流程，最终完成任务输出结果，不足在于部分功能生成结果上还有一定的瑕疵，且目前由于排队人数较多，还遇到了无法生成视频的问题。

二、小云雀VS即梦，有什么异同？

在产品功能上，小云雀与字节旗下即梦AI较为相似，且两款产品均为剪映团队出品，那么小云雀与即梦在具体功能上有什么异同？

即梦AI应用端主要有图片生成、视频生成、数字人与动作模仿四项功能，其中前三项功能与小云雀重叠，因此本节使用与上节完全相同的输入指令，对比小云雀与即梦在这三项功能上的表现。

（一）即梦AI视频生成

输入：

请帮我做一个桃园三结义的故事，水墨画风格，注意保持人物形象一致性

（同时手动选择视频比例为9:16、视频时长为10秒、视频模型为视频3.0）

效果：

表现对比：

输出视频遵循了桃园三结义的故事主题，画面上采用了水墨画中的“彩墨画”风格，画面精细度较高，但缺点也同样明显。

首先，由于即梦AI视频生成最多支持生成10秒视频，难以支撑一个故事的内容要求，因此画面单一，仅为固定场景下三人进行部分动作而已；其次视频中人物特点与武将风格不太相符，且左侧绿装人物手部作揖动作并不完整；然后，右上角出现乱码内容；最后，该视频并没有进行配音，为无声视频。

（二）即梦AI数字人（快速生成模式）

由于即梦AI数字人功能需要手动设置形象、音色及口播内容，无法一句话生成视频，因此DataEye研究院按照需求，利用即梦AI APP分步拆解完成设置， 流程如下：

字节再推新品，小云雀决战视频AI Agent？

① 利用即梦AI图片生成功能，生成一张阳光青年形象；

② 利用即梦AI灵感向导功能，生成鼓励高考生的口播；

③ 在即梦AI数字人功能中，导入前两步生成的图片和口播内容（因字数限制略有删减），并挑选“阳光青年”音色后选择快速生成模式。

效果：

表现对比：

输出视频数字人有明显AI风格，口型与配音偶尔有不符合的情况出现，数字人动作不够自然。

对比小云雀数字人视频，快速生成模式下，即梦AI数字人在真人相似度、动作自然度、流程简单程度上均不如小云雀，但在配音协调性上要优于小云雀。

同时，即梦AI数字人功能还存在一定限制，如口播内容最大不超过80字，音色为固定的16种供选择等。

（三）即梦AI图片生成

输入：

请帮我做一张618大促期间打88折的洗面奶海报

（同时手动选择图片比例为9:16、模型为图片3.0、图片清晰度为标清1K）

效果：

字节再推新品，小云雀决战视频AI Agent？

表现对比：

输出图片非常符合输入指令，产品本身及画面质感均非常真实，超过了小云雀的生成效果，美中不足在于海报整体较为单调，除产品展示与折扣提醒外，没有产品亮点等信息。

综合来看，小云雀与即梦AI在功能表现上各有优劣，小云雀最大优势在于“傻瓜式操作”，无需繁琐设置，只需输入一句话指令，AI便可自动完成任务，后续还能对指令进行修改；而即梦AI相对来说操作复杂度要稍高一些，且存在着诸如时长、字数等限制，但生成结果也有独特优势。

另外，即梦作为一款较为成熟的产品，目前正持续进行付费投流，而小云雀目前几乎没有投流（ADX行业版仅监测到小云雀于5月30日当天投放7组素材）。

字节再推新品，小云雀决战视频AI Agent？

ADX行业版数据显示，近30天，即梦AI投放力度整体呈先降后升趋势，5月12日至5月下旬，即梦AI日投放素材量震荡下行，最低日投放素材量约100组，5月底开始迅速提升，达最高点，日投放素材量约300组，并持续至今。

三、发力视频Agent，字节为了什么？

事实上，除了小云雀外，字节剪映团队近期还接连推出了另外两款产品：Pippit AI和剪小映。

Pippit AI主要在Web端，定位为AI营销内容创作平台，涵盖了产品链接转短视频、AI数字人、批量图片创作、预约自动发布、数据看板等功能，帮助中小跨境商家实现了从内容创作、到营销投放、到数据反馈的联动。

剪小映则面向普通用户，核心在于读取相册AI智能剪辑生成视频。

无论是Pippit AI、剪小映还是小云雀，其核心都聚焦在一点：即 高度自动化 ，让用户只需要傻瓜式操作，AI便能一键生成结果供用户选择，这也是AI agent的目的：让AI不再只是一个回答问题的助手，而是能够动手工作的存在。

而短时间内，字节旗下剪映团队推出多款内容创作Agent，背后又是怎样的原因？

DataEye研究院认为，主要有以下三点原因：

（一）市场层面，各大厂发力Agent，字节需要进一步面对竞争。

2025年，被称为AI Agent元年，各大厂、小厂都在发力AI Agent。3月份，通用型Agent产品Manus发布，一夜爆火，如今，字节、腾讯等均纷纷布局。字节扣子空间一度一码难求，腾讯与百度还进军手机端，前者推出QBot AI智能体，上线AI高考通、下载助理、更新助理、股票助理四款Agent，后者推出心响APP。

在这样的市场压力下，字节需要进一步应对竞争，在通用Agent扣子空间之外，再度推出移动端垂直类Agent小云雀等，以期通过视频Agent在市场竞争中占据优势地位。

（二）产品层面，垂直Agent更加专注，或更具探索价值。

上文提到的Manus、扣子空间、以及百度心响APP等，定位均为通用Agent，即各种类型的功能，智能体均能完成，但受限于现阶段技术能力，通用Agent往往面临着一个问题：容易陷入“样样通、样样松”的窘境。

而相反，垂直Agent更加专注、更加聚焦某一类特殊任务，因此其能力、价值或许在某些层面要更高。

如同上个月爆火的垂直类设计Agent产品Lovart，在外界对其与Manus的对比测试中发现，Lovart与Manus的生图能力不分伯仲，但Lovart更像是从头建立了一个完整的设计工作流，甚至素材都是分好图层的，而Manus更像是在调模型+拼素材，这也是垂直与通用Agent的差异。

字节旗下剪映团队拥有庞大视频剪辑经验，以剪映、即梦团队AI能力为基础，去尝试垂直类视频Agent，对于字节来说或许更具探索价值。

（三）公司策略层面，在AI时代，字节对剪映团队可能抱有更高期望。

去年年底，便有消息称字节提升即梦AI的产品优先级，尝试用新的路径打造AI时代的“抖音”，原因则在于相较于豆包这类AI助手，字节内部认为视频生成AI赛道未来或许要更具潜力。

因此，剪映团队接连推出多款产品，或许正与字节内部AI策略有关，试图通过即梦、小云雀、剪小映、Pippit AI覆盖不同场景，测试效果。

文章来自于“DataEye应用数据情报”，作者“DataEye”。

OWL

【开源免费】OWL是一个完全开源免费的通用智能体项目。它可以远程开Ubuntu容器、自动挂载数据、做规划、执行任务，堪称「云端超级打工人」而且做到了开源界GAIA性能天花板，达到了57.7%，超越Huggingface 提出的Open Deep Research 55.15%的表现。

项目地址：GitHub：https://github.com/camel-ai/owl

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。

项目地址：https://github.com/browser-use/browser-use

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！

项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址：https://github.com/n8n-io/n8n

在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。

项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file

【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用：https://vectorvein.ai/（付费）

数字人

【开源免费】Fay开源数字人框架是一个AI数字人项目，该项目可以帮你实现“线上线下的数字人销售员”，

“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。

项目地址：https://github.com/xszyou/Fay

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。

项目地址：https://github.com/Significant-Gravitas/AutoGPT

【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

无人直播

【开源免费】VideoChat是一个开源数字人实时对话，该项目支持支持语音输入和实时对话，数字人形象可自定义等功能，首次对话延迟低至3s。

项目地址：https://github.com/Henry-23/VideoChat

在线体验：https://www.modelscope.cn/studios/AI-ModelScope/video_chat

【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案，生成数字人形象进行直播，并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址：https://github.com/PeterH0323/Streamer-Sales