字节狂推新品
DataEye研究院发现,日前,字节旗下剪映团队推出了一款全新AI应用——小云雀,该应用定位为“内容创作Agent”,包含了智能成片、AI设计等4大功能,用户只需输入文字指令,一句话便可以利用AI自动生成短视频、数字人口播、海报等,主打“创作零门槛”。
那么,小云雀能力具体如何?与字节另一款视频AI即梦相比有何不同?字节又为何要推出这款全新AI应用?
为解答上述问题,DataEye研究院上手体验了小云雀APP,并结合互联网公开资料对上述问题进行分析,以供大家参考。
DataEye研究院体验发现,小云雀APP界面较为简洁,应用左上角为“个人中心”,右上角为“创作记录”,底部为输入框及四大功能按钮:智能成片、数字人视频、AI设计和AI换背景。
此外,除了底部按钮外,在应用中部左右滑动同样可以切换功能选项。
在模型端,小云雀官方列出了其接入的三款大模型,分别为:豆包大模型、豆包文生图模型、求索对话DeepSeekChat。
在功能上,小云雀共有4大功能:智能成片、数字人视频、AI设计和AI换背景,且每个功能均遵循“创作想法——理解分析——创意脚本/设计——剪辑成片/作图结果”的工作流程,并最终输出4条结果供用户选择。
DataEye研究院针对每项功能均进行了测试,并在每项测试结果中挑选一条如下:
①智能成片:
输入:
请帮我做一个桃园三结义的故事,水墨画风格,注意保持人物形象一致性
流程:
效果:
输出视频在故事主题、画面风格上均遵循了输入指令,但配音有些生硬,且人物形象未能保持一致,如刘关张三人前期均为武将形象,但视频后期饮酒时却均变成了文人形象;关羽还分别出现了红面、绿袍、白衫等多种不同形象,张飞形象也同样存在前后不一的问题。
②数字人视频:
输入:
请帮我做一个鼓励高考生的口播视频
流程:
效果:
输出视频中数字人形象与真人无异,口型与配音相符合,内容主题也与输入指令相符,但同样存在配音生硬的现象,数字人与配音之间契合度较低。
③AI设计:
输入:
请帮我做一张618大促期间打88折的洗面奶海报
流程:
效果:
输出图片在内容上符合输入指令,不过也依旧存在一些瑕疵,如误把“618大促”字样作为产品名印在了洗面奶瓶身,同时画面左下角出现了无意义乱码,但整体效果瑕不掩瑜。
④AI换背景:
输入:
椅子在书店角落,书架上放着书籍、台灯,画面中有柔和的光线
流程:
效果:
输出图片整体与输入指令相符,椅子边缘无毛刺,光线柔和,光影自然,同时书架、书籍、台灯等要求均有展现。
DataEye研究院认为: 小云雀的四项功能在体验上均有一定的优势与不足,优势在于操作简单,所有功能均只需一句话下达指令便可完成,应用会自动调用相应大模型分别完成脚本创作、视频剪辑等流程,最终完成任务输出结果,不足在于部分功能生成结果上还有一定的瑕疵,且目前由于排队人数较多,还遇到了无法生成视频的问题。
在产品功能上,小云雀与字节旗下即梦AI较为相似,且两款产品均为剪映团队出品,那么小云雀与即梦在具体功能上有什么异同?
即梦AI应用端主要有图片生成、视频生成、数字人与动作模仿四项功能,其中前三项功能与小云雀重叠,因此本节使用与上节完全相同的输入指令,对比小云雀与即梦在这三项功能上的表现。
输入:
请帮我做一个桃园三结义的故事,水墨画风格,注意保持人物形象一致性
(同时手动选择视频比例为9:16、视频时长为10秒、视频模型为视频3.0)
效果:
表现对比:
输出视频遵循了桃园三结义的故事主题,画面上采用了水墨画中的“彩墨画”风格,画面精细度较高,但缺点也同样明显。
首先,由于即梦AI视频生成最多支持生成10秒视频,难以支撑一个故事的内容要求,因此画面单一,仅为固定场景下三人进行部分动作而已;其次视频中人物特点与武将风格不太相符,且左侧绿装人物手部作揖动作并不完整;然后,右上角出现乱码内容;最后,该视频并没有进行配音,为无声视频。
由于即梦AI数字人功能需要手动设置形象、音色及口播内容,无法一句话生成视频,因此DataEye研究院按照需求,利用即梦AI APP分步拆解完成设置, 流程如下:
① 利用即梦AI图片生成功能,生成一张阳光青年形象;
② 利用即梦AI灵感向导功能,生成鼓励高考生的口播;
③ 在即梦AI数字人功能中,导入前两步生成的图片和口播内容(因字数限制略有删减),并挑选“阳光青年”音色后选择快速生成模式。
效果:
表现对比:
输出视频数字人有明显AI风格,口型与配音偶尔有不符合的情况出现,数字人动作不够自然。
对比小云雀数字人视频,快速生成模式下,即梦AI数字人在真人相似度、动作自然度、流程简单程度上均不如小云雀,但在配音协调性上要优于小云雀。
同时,即梦AI数字人功能还存在一定限制,如口播内容最大不超过80字,音色为固定的16种供选择等。
输入:
请帮我做一张618大促期间打88折的洗面奶海报
(同时手动选择图片比例为9:16、模型为图片3.0、图片清晰度为标清1K)
效果:
表现对比:
输出图片非常符合输入指令,产品本身及画面质感均非常真实,超过了小云雀的生成效果,美中不足在于海报整体较为单调,除产品展示与折扣提醒外,没有产品亮点等信息。
综合来看,小云雀与即梦AI在功能表现上各有优劣,小云雀最大优势在于“傻瓜式操作”,无需繁琐设置,只需输入一句话指令,AI便可自动完成任务,后续还能对指令进行修改;而即梦AI相对来说操作复杂度要稍高一些,且存在着诸如时长、字数等限制,但生成结果也有独特优势。
另外,即梦作为一款较为成熟的产品,目前正持续进行付费投流,而小云雀目前几乎没有投流(ADX行业版仅监测到小云雀于5月30日当天投放7组素材)。
ADX行业版数据显示,近30天,即梦AI投放力度整体呈先降后升趋势,5月12日至5月下旬,即梦AI日投放素材量震荡下行,最低日投放素材量约100组,5月底开始迅速提升,达最高点,日投放素材量约300组,并持续至今。
事实上,除了小云雀外,字节剪映团队近期还接连推出了另外两款产品:Pippit AI和剪小映。
Pippit AI主要在Web端,定位为AI营销内容创作平台,涵盖了产品链接转短视频、AI数字人、批量图片创作、预约自动发布、数据看板等功能,帮助中小跨境商家实现了从内容创作、到营销投放、到数据反馈的联动。
剪小映则面向普通用户,核心在于读取相册AI智能剪辑生成视频。
无论是Pippit AI、剪小映还是小云雀,其核心都聚焦在一点:即 高度自动化 ,让用户只需要傻瓜式操作,AI便能一键生成结果供用户选择,这也是AI agent的目的:让AI不再只是一个回答问题的助手,而是能够动手工作的存在。
而短时间内,字节旗下剪映团队推出多款内容创作Agent,背后又是怎样的原因?
DataEye研究院认为,主要有以下三点原因:
2025年,被称为AI Agent元年,各大厂、小厂都在发力AI Agent。3月份,通用型Agent产品Manus发布,一夜爆火,如今,字节、腾讯等均纷纷布局。字节扣子空间一度一码难求,腾讯与百度还进军手机端,前者推出QBot AI智能体,上线AI高考通、下载助理、更新助理、股票助理四款Agent,后者推出心响APP。
在这样的市场压力下,字节需要进一步应对竞争,在通用Agent扣子空间之外,再度推出移动端垂直类Agent小云雀等,以期通过视频Agent在市场竞争中占据优势地位。
上文提到的Manus、扣子空间、以及百度心响APP等,定位均为通用Agent,即各种类型的功能,智能体均能完成,但受限于现阶段技术能力,通用Agent往往面临着一个问题:容易陷入“样样通、样样松”的窘境。
而相反,垂直Agent更加专注、更加聚焦某一类特殊任务,因此其能力、价值或许在某些层面要更高。
如同上个月爆火的垂直类设计Agent产品Lovart,在外界对其与Manus的对比测试中发现,Lovart与Manus的生图能力不分伯仲,但Lovart更像是从头建立了一个完整的设计工作流,甚至素材都是分好图层的,而Manus更像是在调模型+拼素材,这也是垂直与通用Agent的差异。
字节旗下剪映团队拥有庞大视频剪辑经验,以剪映、即梦团队AI能力为基础,去尝试垂直类视频Agent,对于字节来说或许更具探索价值。
去年年底,便有消息称字节提升即梦AI的产品优先级,尝试用新的路径打造AI时代的“抖音”,原因则在于相较于豆包这类AI助手,字节内部认为视频生成AI赛道未来或许要更具潜力。
因此,剪映团队接连推出多款产品,或许正与字节内部AI策略有关,试图通过即梦、小云雀、剪小映、Pippit AI覆盖不同场景,测试效果。
文章来自于“DataEye应用数据情报”,作者“DataEye”。
【开源免费】OWL是一个完全开源免费的通用智能体项目。它可以远程开Ubuntu容器、自动挂载数据、做规划、执行任务,堪称「云端超级打工人」而且做到了开源界GAIA性能天花板,达到了57.7%,超越Huggingface 提出的Open Deep Research 55.15%的表现。
项目地址:GitHub:https://github.com/camel-ai/owl
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】Fay开源数字人框架是一个AI数字人项目,该项目可以帮你实现“线上线下的数字人销售员”,
“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。
项目地址:https://github.com/xszyou/Fay
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。
项目地址:https://github.com/Henry-23/VideoChat
在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat
【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址:https://github.com/PeterH0323/Streamer-Sales