
「世界模型解读法则」
在无人在意的角落,世界模型如雨后春笋般集体震撼首发。
不是我夸张啊,4月阿里在发布视频模型Happy Horse之前就开启了世界模型Happy Oyster的内测,最近快乐马的测评也是遍地开花,但你有看到谁在研究这个快乐生蚝吗?
同期,腾讯的混元3D世界模型2.0也发布并开源了,但热度甚至都没有上线即凉透的王者荣耀世界高。还是在4月,太平洋对岸,邪恶的美国人如李飞飞、黄仁勋也都发布了自家世界模型的新一代版本,然后也都没啥水花。
最神的是,连灵光都发布了世界模型,还是装在手机里的,爱用电脑的都别想创造世界。
有理由怀疑,字节应该也在闷头憋世界模型中,没准起名叫Seedworld之类的,毕竟现在也就剩它还没跟这个风了。
但这么多能瞬间造出来一个开放世界给咱探索的神奇工具,怎么就没一个引发众AI媒体小编「炸了疯了杀死比赛了」的条件反射呢?
我浅浅用了一下其中几个,发现原因很简单,就是太拉了。
先说Happy Oyster🦪
Happy Oyster有两种使用模式,一种是Directing,也就是导演模式。导演模式走的是实时生成短片的路线,和之前锐评过的Pixverse R1差不多。
这个路线的世界模型主打的就是你可以随时输入提示词改变场景和剧情,像玩旮旯game一样进行AI视频生成。
但之前的Pixverse R1和Odyssey-2有很多此类模型的通病。比如没有连贯性,上一秒新生成的场景下一秒就消失了。再比如有误差积累,生成时间越长,画面就越疯狂。具体可以看之前专门写Pixverse R1的文章。
那Happy Oyster的Directing模式,在这些问题上有没有长进呢?
于是我让它生成了一个「美国宇航员在月球漫步」的场景,并准备加入各种地外势力与其交互。
在整个视频生成过程中,我接二连三输入了「出现了一个外星人」「和外星人握手」「和外星人结婚生孩子」「一场外星酸雨毁了他们的爱巢」等提示词。看看效果。

结果我发现阿里挺聪明的。
之前Pixverse R1采用的是一个全程没分镜的长镜头,所以误差累积和没有连贯性的问题才特别明显。
Happy Oyster直接从根源上解决问题,隔几秒就切个镜头,一切重新开始,直接通过逃避问题来解决问题。此处无讽刺意味。
关键是确实有一定作用,开头生成出来的外星人,直到最后也没消失,好端端在月球待着,算是保持了连贯性。
但与此同时,角色一致性和动作剧情的表现,也是差到让我觉得是bug的程度。整体画面的质感也堪比西式梦核。
再试试别的。我又上传了一张豆包的照片,让Happy Oyster生成一个《完蛋我被你豆姐包围了》的实景游戏。
生成完之后,我算是知道这玩意的真正用途了。

虽然生成的那个马,中途像核辐射变异了一样成了双头马;虽然豆包突然开始模仿闪灵,俩豆包站一起吓我一大跳;虽然整个画面也是崩坏得像几年前的AI视频水平,但是——
这个视频里的人和马都是能发出声音能说话的,而且也不用给明确的台词,模糊指令就能推进剧情。之前的那些世界模型可没有这个节目效果。
这不是很适合做AI虚拟恋人吗?
传统的AI虚拟恋人也就LLM实时个性化定制台词和剧情,然后AI生成几个场景和表情包发给你。以后咱们用这个世界模型做AI虚拟恋人,想让虚拟恋人干啥直接自己编,剧情画面和演出都直接无穷无限啊。
建议Happy Oyster立刻预设恋与深空角色&旮旯game全明星&永雏塔菲等人的数字分身模板,不火直接来找我。
不过即便我给它找了个使用场景,我还是没理解包括Happy Oyster、Pixverse R1、Odyssey-2在内的这种实时生成视频的工具,和世界模型到底有什么关系。
我认为,世界模型主要为了解决AI时代的两个痛点。
一个是现在牛逼的大语言模型太牛逼了,后起之秀跟不上了,必须造个新概念弯道超车;另一个是大语言模型没法理解物理世界,没法让碳基人和硅基人在三维世界里和AI交互,那就没法实现所谓的AGI,而世界模型可以。
举个例子,最近印度工人一边头戴相机一边打螺丝的新闻不是挺火吗,按说这也确实是AI在物理世界获取数据进行训练然后提升具身智能能力的重要手段。
但要是有了能模拟真实物理世界的世界模型,可能第三世界国家的力工们就不用抬不起头了,直接让AI智能体在世界模型里练走位就完事了。节能高效。
但这种实时生成视频的工具,它和这个愿景有啥关系吗,它对于理解物理世界的贡献在哪呢,我没看出来啊,我感觉他就是个另一种交互形式的视频Agent而已。
唯一优点是不用抽卡了,因为根本没法抽卡了,连想提示词的时间都没有了。
但之前也说了,Happy Oyster有两个模式。刚才讲的Directing是在做实时视频生成,除此之外,他们还有一个Wandering模式,也就是溜达模式,这个跟理解物理世界可能更沾点边。
在Wandering模式里,用户可以用两段提示词分别定义场景和人物,然后在生成的世界里到处溜达。
但这看起来和Google的Genie 3的功能和交互基本一致。
更幽默的是,这个英文界面是Happy Oyster的,中文界面才是Genie 3的。

开始测试。
第一波就试试力工。我让Happy Oyster和Genie 3分别生成了一个深圳电子厂,主角设置为刚从大学毕业进入社会的蓝领实习生,看看是否能进行一场酣畅淋漓的赛博奋斗。
先看Genie 3。

一股电子厂的气息扑面而来。我操纵主角去取了个零件,然后回到原位,期间还撞到一个同事。全程车间稳定,环境一致。
但操作起来并不是那么顺利,流畅程度不如春晚跳舞机器人。而且无论是所处场景、道具物体还是周遭人物,都有疑似伪人的劣质贴图感。
再看Happy Oyster,同一个电子厂同一个梦想。

在模型精度和画面质量上,我觉得Happy Oyster是略胜一筹的,看着不像是一堆肉团子在纸房子里走来走去。
但类似的致命问题还是存在:没有环境的一致性和稳定性。
比如我让主角去取个螺丝,回来发现自己工位没了。再比如我让主角360度转一圈,结果本来是堵墙的地方变成走廊了。
本来没人的地方多了俩同事,合着Boss背着咱们偷偷直聘了。
细细想来挺吓人的,有点像玩《后室》一类的梦核恐怖游戏。
这让我不得不怀疑,Happy Oyster难道没有记忆功能,它该不会只是在根据用户看到的上一个画面来进行视频首帧生成吧。
包括后来我让Happy Oyster生成了一个正在森林里持续喷火的龙,这个龙也是走着走着就忘了自己初心了。

不过这个是通病,Genie 3生成的龙,喷了半分钟之后也忘了自己来这是干啥的了。

除了环境的一致性和稳定性之外,世界模型是否可用的另一个标准,就是其对物理规律的模拟。
于是我生成了一个专门用来过马路的世界,想看看在哪个模型里我会直接被大运撞死?
结果这轮Happy Oyster小赢一把,因为虽然仍有刚才提到的一致性和稳定性问题,但这里面的车确实会在我路过的时候停,我走的时候再开。

文明社会啊。AI有望在这里练成自动驾驶。
反观Genie 3,无论我生成多少次,他这个里面的车直接就全员静止了。
我再一看,原来是红灯。然后Genie 3最多生成60秒,红灯也是60秒。
哥们在这卡bug呢。

我估计是因为Genie 3对于多智能体之间的交互没自信,所以索性剥夺了物体的智能。
毕竟他们自己在官网承认了诸多缺陷。

之后呢,我又转换视角,生成了一个专门用来撞人撞车的世界,这次他们俩就表现得就都还可以。
Happy Oyster生成的Cybertruck撞车挺流畅,跟开碰碰车一样,就是偶尔有点穿模。

Genie 3生成生成的打击感很强,人也会避障,有一种玩GTA 6的感觉,就是比GTA穿模还严重。

在此,我必须声明一下,我全篇拿Happy Oyster的Wandering模式和Genie 3比,并不是一个横向测评的意思。
毕竟把一个上个月刚刚内测的Beta产品和一个已经迭代多轮的SOTA产品比,本身也是不公平和没意义的。我只是想把世界模型现在都啥样展示给大家。
所以我的最终结论是,Happy Oyster还有太大的进步空间,而Genie 3也就那玩意。
说到底,C端用户能接触到并用明白的世界模型产品或许本身就不具备实用价值,它们只是AI公司缓解自身恐惧和焦虑的一种姿态:
哦我也在紧跟时代,我也没有all in这个大语言模型,我也在两头押注,等之后杨立昆李飞飞谁真憋出来个大的来,我也能骄傲地告诉全世界——呵呵咱早就半只脚踏入这波浪潮。
看似很踏实很保底,实则是心惊胆战如履薄冰。前一阵看了一部话剧叫《哥本哈根》,讲的是二战期间,第三帝国的核物理学家海森堡去德军占领区拜访他的老师,后来参与曼哈顿计划的玻尔。
话剧本身我也没看太明白。但其中有一幕是,海森堡痛心疾首地质问玻尔:你为什么不告诉美国人,我们其实根本没在研究核弹咋爆炸?
现在世界模型圈的形象和二战结束前真的有点像,一个更进阶版的黑暗森林:
大部分人都在生产一些没用的产品,也知道别人生产的都是没用的产品,或者根本看不懂别人生产的是个什么产品,但谁也不敢停止生产,毕竟都怕对方其实在造核弹。
于是所有人不断发布,不断更新,不断让一坨坨消息抢占注意力高地。
不过没关系,你们烧钱干一些现在不切实际的东西是挺好的事儿,反正又没烧我的钱,你爱去探索火星都行,起码贡献更多狠活和GDP了。
(本文封面由ChatGPT 生成,纯人工写作)
文章来自于"葬AI",作者 "罗子马"。
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0