登顶HuggingFace日榜！英伟达清华团队γ-World：把世界模型从单机打到联机

AI技术研报 2026-05-30 11:26

+9541 阅读

单机时代快结束了。

过去两年，视频世界模型的进展有目共睹 ——Sora、Cosmos、Genie 把画质、时序、交互能力不断往前推。但所有这些进展，都建立在同一个前提上：世界里只有一个参与者。

这个前提，在真实应用场景里几乎从不成立。

多人游戏里，你的走位会改变队友和对手的决策空间；工厂产线上，一台机械臂的轨迹约束着另一台的运动范围；具身智能体训练里，多个 agent 在同一个环境里同时探索、互相影响。这些场景的共同特征是因果耦合：一个主体的行为改变了共享环境的状态，其他所有主体都必须感知到并据此行动。

这不是单智能体框架加点数据就能解决的，是设计层面本就没有预留接口的问题。

登顶HuggingFace日榜！英伟达清华团队γ-World：把世界模型从单机打到联机

论文：Gamma-World: Generative Multi-Agent World Modeling Beyond Two Players
机构：NVIDIA / 清华大学 / 多伦多大学 / Vector Institute
作者：Fangfu Liu、Kai He、Tianchang Shen、Tianshi Cao、Sanja Fidler、Yueqi Duan、Jun Gao、Igor Gilitschenski、Zian Wang、Xuanchi Ren
项目主页：https://research.nvidia.com/labs/sil/projects/gamma-world/
GitHub：https://github.com/nv-tlabs/Gamma-World
Huggingface: https://huggingface.co/papers/2605.28816

现有世界模型方案都卡在同一个地方

过去一年，多智能体世界模型方向密集出现新工作。

Solaris 在 Minecraft 里收集了大规模多人同步数据，训练出可以同步生成双人视角的世界模型，是目前公开工作里最接近实用的方案。Enigma Labs 的 Multiverse 走开源路线，用两个模型搭建多人赛车世界。Odyssey 的 Agora-1 更激进，让四个玩家共享同一个实时生成的对战世界。

这些工作都证明了多智能体世界模型可以做。但仔细看，它们卡在同一个地方 —— 做到了，但扩展不了。

以 Solaris 为例，两个结构性问题直接决定了它的天花板。

对称性打破了。 Solaris 给每个玩家学一套固定的槽位身份向量。表面上是「给玩家分配了 ID」，实际上是在模型里把「1 号玩家」和「2 号玩家」学成了两种不同的角色类型。模型学到的是「这两个特定角色如何互动」，而不是「多个平等的玩家如何共享一个世界」。想加第三个玩家，必须重新训练。

算力随人数平方爆炸。 Solaris 让所有玩家的所有 token 两两交互。这个成本随玩家数量平方增长 ——2 人到 4 人计算量翻 4 倍，2 人到 8 人翻 16 倍。两人跑得动，多几个人基本告别实时。

这两个问题，一个是建模哲学问题，一个是算法复杂度问题，靠堆算力和数据都解决不了。

Gamma-World：这场仗，从底层打起

5 月下旬，NVIDIA 联合清华大学、多伦多大学和 Vector Institute 发布 Gamma-World，共一第一为清华大学电子系博士刘芳甫，核心 Research 方向是世界模型和空间智能。

Gamma-World 没有在现有世界模型基础上修补，而是重新设计了一套全新的多玩家的世界模型框架，把位置编码和注意力机制两个底层组件重新设计，把上面两个问题一并解决。

对称性问题：把每个玩家映射到旋转角空间里一个正单纯形的顶点上。正单纯形的所有顶点之间距离完全相等 ——2 个玩家是线段两端，4 个玩家是正四面体四个顶点，任意两点距离相同。模型看到任何两个玩家，他们之间的几何关系完全一致，谁也不比谁特殊。这个编码不需要任何可学习参数，也不绑定固定玩家数量 —— 训练时用两人，推理时想用四人，从顶点池里多取两个顶点就行，架构不用改，不用重新训练。

复杂度问题：引入一组 hub token 作为共享通信枢纽。玩家不再两两直连，而是「所有人先把信息汇给枢纽，枢纽再广播给所有人」，信息路径变成两跳：玩家→枢纽→玩家。计算成本从平方增长压到线性增长。8 个玩家时，Gamma-World 的算力消耗只有全连接方案的八分之一，延迟从 17.6ms 降到 4.5ms。

登顶HuggingFace日榜！英伟达清华团队γ-World：把世界模型从单机打到联机

实验方法总览图

看看它实际跑出来是什么样

先看双人 Minecraft 交互：

登顶HuggingFace日榜！英伟达清华团队γ-World：把世界模型从单机打到联机

双人Minecraft协作，两个视角并排+键盘控制显示

两路画面实时同步。一个玩家的走位和动作，立刻反映在另一个玩家的视角里。这不是「两段碰巧放在一起的视频」—— 两路画面描述的是同一个世界，玩家 A 看到的和玩家 B 看到的，在空间上是自洽的。

然后是这个项目最有冲击力的结果 —— 零样本四人泛化：

登顶HuggingFace日榜！英伟达清华团队γ-World：把世界模型从单机打到联机

四人Minecraft零样本泛化，四个视角+四套键盘控制

登顶HuggingFace日榜！英伟达清华团队γ-World：把世界模型从单机打到联机

四个Agent实时协作，从游戏场景迁移到现实情境

这个模型从来没见过四个人的训练数据。推理时只需要从单纯形顶点池里多取两个顶点，四路同步视角直接生成，共享世界状态完整保留。这不是「多生成几段视频」，是模型真的学会了「多个主体共享同一个世界」这件事本身。

最后是真实机器人场景：

登顶HuggingFace日榜！英伟达清华团队γ-World：把世界模型从单机打到联机

机械臂双人实时协同

同一套框架，从 Minecraft 方块世界直接迁移到真实桌面操作，左右两条机械臂各作为一个独立智能体。生成的未来帧保持了双臂的协同运动和空间布局，没有任何额外改动。X 的网友评论：

“实时多智能体游戏！太疯狂了……

我特别喜欢将游戏玩法扩展到 UMI 数据收集场景的想法，将两个臂视为独立的代理（共享观察空间）。

由于其实时效率，或许可以开始利用神经模拟而非物理交互来实现具身的数据采集。”

这件事真正打开了什么

Physical AI 领域长期面临一个核心瓶颈：高质量的多智能体交互数据极度稀缺。语言数据可以从互联网挖，图像数据可以从相机采集，但物理交互数据 —— 一台机器人拿起杯子、另一台做出响应，一个玩家改变环境、另一个据此决策 —— 几乎不存在规模化的采集来源。采一小时真实双臂协作数据，需要两台机器人、一个操作空间、至少一个人全程监督。真实世界的数据产出速度，最终受限于人类时间和物理空间，这个瓶颈不是钱能直接解决的。

这也是为什么语言模型令全世界沸腾的的 scaling law 在 Physical AI 领域迟迟没能复现 —— 不是模型不够大，是数据根本不够。

多智能体世界模型有可能改变这个等式。当模型能在共享环境中同时模拟多个智能体的交互，它就天然成为一台交互数据的生成器 —— 多个 agent 在虚拟世界中对抗、协作、探索，24 小时不间断地产出轨迹数据，然后用这些数据训练真实的机器人和游戏 AI。更重要的是，这个过程可以主动设计：想要更多双臂协作场景，就在虚拟环境里跑更多双臂任务；想要更极端的对抗场景，就让 agent 在虚拟世界里自我博弈。真实世界采数据是被动的，世界模型生成数据是主动的，这个主动性本身就是一个质的跃升。

而且这个飞轮一旦转起来，会自我加速：更好的世界模型生成更高质量的训练数据，更高质量的训练数据训练出更好的 policy，更好的 policy 跑出更多样的交互轨迹，又反哺世界模型的下一轮训练。这个循环在单智能体时代已经有人在做，多智能体世界模型把这个循环的覆盖范围扩展到了真正有价值的场景。

赛道格局正在变

登顶HuggingFace日榜！英伟达清华团队γ-World：把世界模型从单机打到联机

γ-World 多人实时协同世界模型

Solaris 证明了两个玩家是可行的；Gamma-World 证明了扩展到更多玩家是可行的，而且不需要为每个新的玩家数重新训练。听起来只是一步，但这是这个赛道从「能做」到「可扩展」的关键跨越 —— 就像当年游戏引擎从单机走向联机，不只是多了几个角色，而是整个游戏世界的生产逻辑变了。

Solaris、Multiverse、Agora-1、Gamma-World，各家技术路线不同，但指向同一个判断：单机时代的世界模型，已经到了天花板。

接下来的竞争会在几个维度同时展开。模型层面，谁能把多智能体一致性实时响应做得更好、支持更多 agent、在更复杂的场景下不崩；数据层面，多智能体世界模型本身就是数据生成器，谁的生成质量更高、物理规律更准，谁就能产出更好的训练数据反哺下一代模型；应用层面，从 Minecraft 到机械臂只是开始，自动驾驶、无人机编队、手术机器人协作，每一个都是一个独立的战场，也都指向千亿万亿级的市场规模。

但这些竞争背后有一个更根本的问题还没有答案：生成出来的多智能体交互，物理规律和因果逻辑能不能真正经得起检验？虚拟环境里学到的规则如果和真实世界对不上，灌再多数据也是噪声。Gamma-World 在机械臂上的迁移实验是一个积极信号，但这个问题要真正答完，还需要更系统的验证。

这也是为什么这个方向现在这么值得关注 —— 它不只是「世界模型做多人版」，而是在试图回答一个更大的问题：AI 能不能真正理解一个有多个参与者的世界，以及这种理解能不能迁移到真实物理场景中去。这件事一旦答出来，Physical AI 训练数据的生产方式会发生根本性的改变。

从单机到联机，世界模型的下一场战争，才刚刚开始。

文章来自于微信公众号 "机器之心"，作者 "机器之心"

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。

项目地址：https://github.com/browser-use/browser-use

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。

项目地址：https://github.com/Significant-Gravitas/AutoGPT

【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

RAG

【开源免费】graphrag是微软推出的RAG项目，与传统的通过 RAG 方法使用向量相似性作为搜索技术不同，GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址：https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG，Agent，模型管理等一站式AI开发的工具平台，并且项目方一直持续维护。其中在任务编排方面相对领先对手，可以帮助研发实现像字节扣子那样的功能。

项目地址：https://github.com/langgenius/dify

【开源免费】RAGFlow是和Dify类似的开源项目，该项目在大文件解析方面做的更出色，拓展编排方面相对弱一些。

项目地址：https://github.com/infiniflow/ragflow/tree/main

【开源免费】phidata是一个可以实现将数据转化成向量存储，并通过AI实现RAG功能的项目

项目地址：https://github.com/phidatahq/phidata

【开源免费】TaskingAI 是一个提供RAG，Agent，大模型管理等AI项目开发的工具平台，比LangChain更强大的中间件AI平台工具。

项目地址：https://github.com/TaskingAI/TaskingAI