实测“清华特奖版Sora”：一图一prompt直接生成视频，堪称嘴强王者

AI资讯 2025-10-15 14:38

+8228 阅读

那边OpenAI的Sora2还没全面开放，这边国内团队已经上线了自己的“特色打法”。

清华特奖选手创办的Sand.ai，上线了音画同步视频模型GAGA-1。

你可以把它理解为：一个专门练“嘴功”和“表演感”的视频生成模型：

实测“清华特奖版Sora”：一图一prompt直接生成视频，堪称嘴强王者

怎么样，奥特曼看了这视频都得说一句：好家伙！我啥时候跑去说相声了？

笑归笑，但有一说一，相比较满地开花的多模态模型，GAGA-1感觉更像是把声音+表演这一块打磨得更顺溜了。

重点是——现在平台不需要邀请码，能直接白嫖开整！

GAGA-1到底有多会“演”？

打开gaga网站，首页设计一目了然，功能入口也毫不藏着掖着。

进入Gaga Actor板块，我们就能直接就能用上GAGA-1模型了。

实测“清华特奖版Sora”：一图一prompt直接生成视频，堪称嘴强王者

用法也不复杂：上传一张图，加一句提示词，AI角色立马“对嘴开演”～

还有一点挺贴心的：

我们可以直接在gaga中生成图像（内置NanoBanana模型），省去了先生图、再传图、再合成的麻烦。

一个平台就能搞定从图到视频的全链路流程，这波操作属实牛啊～

实测“清华特奖版Sora”：一图一prompt直接生成视频，堪称嘴强王者

接下来我们直接实测一波，看看它的“嘴皮子功夫”和“戏精潜质”到底靠不靠谱！

咱先复刻一个最近短视频爆火的Sora2街头采访的视频：

Prompt：男子在大街上采访另一个女孩，问道：“你知道你是AI吗？”女孩说：“你们是哪家自媒体吗，账号叫什么啊我搜搜！”

实测“清华特奖版Sora”：一图一prompt直接生成视频，堪称嘴强王者

单从画质来看，在“免费白嫖”前提下有这种分辨率确实蛮牛的。

人物的表情、动作也比较自然，嘴型和台词基本能对上。

当然也有一些明显的小bug——

比如视频中男生表情略显僵硬，女生语气有点“重音跑偏”，这也算是AI音视频生成的通病了。

接着我们加大难度，来一个台词+镜头逻辑双挑战：

Prompt：台上的男子是一名脱口秀演员，他跟观众说:“有人问我梦想是什么？我说睡到自然醒，他说那叫失业。大家觉得我说的对不对。” 随后镜头给到台下大笑鼓掌的观众。

实测“清华特奖版Sora”：一图一prompt直接生成视频，堪称嘴强王者

这段表现可谓稳中带喜：口型精准，语速自然，台词节奏拿捏得相当准～

但唯一的小缺点是——

最后那个切观众席的镜头没出现，看来GAGA-1在镜头调度上还差点火候……

继续整活——让梵高来玩点时空穿越的戏码：

Prompt：梵高专注地盯着前方，他用平稳的语调开口说道：“都说我脾气大，其实我只对调色盘温柔。”在这个过程中，他的手部不要移动。

实测“清华特奖版Sora”：一图一prompt直接生成视频，堪称嘴强王者

好家伙，这磁性、这低气压感，GAGA-1还真给梵高“量身定做”了一种emo式声线！

而且过程中他手还真一动没动，提示词理解得很到位。

实测“清华特奖版Sora”：一图一prompt直接生成视频，堪称嘴强王者

再来玩点有意思的，我们让一个宝宝边做饭边接受采访：

Prompt：画外音——你这么小怎么就开始做饭了？图片中的宝宝边做饭边说：爸妈基础孩子就不基础，不说了，说多了都是泪。

实测“清华特奖版Sora”：一图一prompt直接生成视频，堪称嘴强王者

人物的表情动作处理都没啥问题，不错不错！

再来玩点抽象的，让一只骑摩托车的猴子发表“骑行感言”：

实测“清华特奖版Sora”：一图一prompt直接生成视频，堪称嘴强王者

整体内容是OK的，但最后几秒“猴子脸”有点变形，角色稳定性开始有点崩。

测试完角色台词功底，我们刁难一下GAGA-1，测一点它不太擅长的领域——动作生成。

让四只小猫上桌打麻将：

实测“清华特奖版Sora”：一图一prompt直接生成视频，堪称嘴强王者

乍一看还挺有氛围，但看久了bug就冒出来了……

左边那只猫的侧脸有些畸形，而且四只猫虽然围坐，但并没有真的“打起来”——连一张牌都没打出去。

于是我们换个思路，不打了，改吃！

这次上场的是小猫和老虎，让它们一起大口大口吃火锅：

实测“清华特奖版Sora”：一图一prompt直接生成视频，堪称嘴强王者

结果嘛……虽然火锅是有了，但场面更像是在拍“动物美食写真”——谁也不动筷子。

（感觉完全没有“狼吞虎咽”的节奏？）

测到这里，其实心里也就有数了。

实测“清华特奖版Sora”：一图一prompt直接生成视频，堪称嘴强王者

GAGA-1擅长的确实是“会说话”的任务，不论是口型同步还是神态演绎，整体表现都算得上是优等生。

但一旦进入多角色、多动作的复杂场景，问题就会浮现出来——

角色动作容易脱节、面部形象容易飘、剧情逻辑也容易断裂。

好在GAGA-1从一开始就没打“万能模型”的主意，而是清晰聚焦在说话和表演这件事上。

会说会演，才是它的核心竞争力。

One More Thing

值得一提是，gaga背后的团队我们也不陌生—— Sand.ai。

没错，就是在今年4月发布首个实现顶级画质输出的自回归视频生成模型Magi-1背后的团队。

Sand.ai创始人曹越，博士毕业于清华大学软件学院，2018年获清华大学特等奖学金。

并于2021年以Swin Transformer共同一作身份获ICCV最佳论文“马尔奖”。

实测“清华特奖版Sora”：一图一prompt直接生成视频，堪称嘴强王者

大佬履历一亮出来，gaga这波团队实力更加坐实了……

当大多数模型都在追求“啥都能来一点”的全能标签时，gaga反而用一张“嘴”，打出了属于自己的节奏。

至少目前来看，gaga把一个点的体验——音画同步的台词生成，打磨得异常扎实、实用又顺手。

AI生成视频玩家里，“嘴”强王者了…

gaga网址：https://gaga.art/app

文章来自于微信公众号“量子位”，作者是“梦瑶”。

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。

项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0