终结VLA？英伟达押注的具身新范式，首篇世界动作模型WAM综述重磅发布

AI技术研报 2026-05-23 09:55

+9787 阅读

2026 年 5 月的红杉 AI Ascent 大会上，英伟达具身智能掌门人 Jim Fan 用短短 20 分钟的演讲《Robotics: Endgame》，给过去三年的机器人技术路线画上了一个引人深思的句号。

他直言不讳地指出，当下主导具身智能的 Vision-Language-Action (VLA) 模型，本质上是 “LVA”—— 把最大的参数量倾注在语言上，导致模型在编码物理常识和动作执行上常常 “翻车”。Jim Fan 给出的破局之道，是复刻大语言模型的 “伟大的平行（The Great Parallel）”：与其模拟下一个文本 Token，不如让机器人去模拟下一个物理世界状态。

Jim Fan 押注的这条 “先预测世界，再生成动作” 的新路，正是当下具身智能领域最炙手可热的下一代范式 —— 世界动作模型（World Action Models，简称 WAM）。

虽然 WAM 正在迅速成为各大顶尖实验室的核心发力点，但业界至今仍然缺乏对它的统一标准和系统梳理。近期，复旦大学可信具身智能研究院，上海创智学院，新加坡国立大学发表了首篇 WAM 的详细综述。

终结VLA？英伟达押注的具身新范式，首篇世界动作模型WAM综述重磅发布

论文题目：World Action Models: The Next Frontier in Embodied AI
作者单位：复旦大学、上海创智学院、新加坡国立大学
论文地址：https://arxiv.org/pdf/2605.12090
Github 仓库：https://github.com/OpenMOSS/Awesome-WAM
项目网页：https://openmoss.github.io/Awesome-WAM/

这篇综述的目标，正是给这个快速形成中的前沿方向画出一张清晰的 “导航地图”：系统梳理 WAM 的定义、架构、训练数据、评测方式和开放问题，帮助读者快速理解这个新兴领域为什么重要、难在哪里、接下来又将走向何处。

终结VLA？英伟达押注的具身新范式，首篇世界动作模型WAM综述重磅发布

图 1. 世界动作模型（WAM）的发展脉络图

1. 世界动作模型（WAM）到底是什么？

终结VLA？英伟达押注的具身新范式，首篇世界动作模型WAM综述重磅发布

图 2. WAM 概念定义与相关范式对比

过去两年，VLA 几乎成了具身智能的代名词。从 RT-2 到 OpenVLA，视觉、语言和动作的统一让机器人能够理解开放词汇指令。但 VLA 存在一个根本性的盲区：它只关心 “当前输入对应什么动作”，而不直接约束模型去预测 “执行动作后的未来状态”。这导致它在复杂的物理交互场景下短板暴露无遗。

WAM 正在试图填补这个缺口。一个简洁的定义是：World Action Model 是把未来状态预测与动作生成统一建模的具身基础模型。它不只是回答 “下一步做什么”，还要建模 “这样做之后世界会怎样”。

视觉语言动作模型（VLA）、世界模型（WM）、世界动作模型（WAM）三类范式的核心差异，可以用一组公式概括：

VLA：p (a | o, l)，从当前观测 o 和语言指令 l 直接生成动作 a。
World Model：p (o' | o, a)，预测给定动作后的未来状态 o'。
World Action Model：p (o', a | o, l)，在同一模型中联合生成未来状态与动作。

在 WAM 出现之前，世界模型其实已经开始以 “外挂” 的形式帮助 VLA（即 WM for VLA），主要用于改进模仿学习、支持强化学习或扩展策略评测。

但 WAM 的关键进化在于，它把这种 “外部辅助” 推进到了模型结构内部：未来状态预测不再只是训练的辅助工具，而是直接参与动作生成。当一个模型同时学习 “世界会如何变化” 和 “应该如何行动” 时，它就不再是被世界模型增强的 VLA，而是一个真正的 World Action Model。

从架构演进的角度来看，当前的世界动作模型（WAM）在设计思路上主要分为两大阵营：Cascaded WAM（级联式）与 Joint WAM（联合式）。前者采用解耦策略，主打 “先想象，再行动”；后者则追求大一统，试图将 “预测世界” 与 “生成动作” 彻底融合进同一个大脑。

2.Cascaded WAM：

先想象，再行动的 “两步走” 路线

终结VLA？英伟达押注的具身新范式，首篇世界动作模型WAM综述重磅发布

图 4. Cascaded WAM 结构图：包含显式生成（分为 Learned Action 和 Geometric Extraction）和隐式生成（Latent Representation）两种模式

Cascaded WAM 把世界预测和动作生成拆分为两个独立阶段：先由世界模型 “脑补” 出一个未来的预期计划，再由下游独立的动作模型将这个计划解码为机器人的可执行动作。

根据中间这层 “预期计划” 形态的不同，Cascaded WAM 分为两条路线：

Explicit Generation（显式生成）：这类方法先让一个世界模型（通常是视频生成模型）根据指令和当前画面，生成一段未来执行任务的视频（像素级计划）。然后，再通过一个逆动力学模型（IDM）或几何计算方法，从生成的视频中提取出具体的机器人动作。它的优势是直观、可解释，能完美继承现有视频生成模型的时空先验；瓶颈在于视频生成的计算成本太高，而且 “视觉上看起来合理” 并不等同于 “物理控制上足够精确”。
Implicit Generation（隐式生成）：彻底放弃解码完整的视频或几何画面，而是将未来计划压缩并保留在隐空间特征（Latent Space）中，直接交给轻量化的策略网络去生成动作。它虽然牺牲了部分人类可读的可解释性，却换来了极低的延迟和更贴近实时部署的潜力。这也揭示了具身智能的一个核心趋势：机器人需要的未必是给人类 “观看” 的未来，而是能直接指导 “行动” 的未来表示。

3.Joint WAM：

把世界预测写进模型内部

如果说 Cascaded WAM 是把两个模型串联打配合，那么 Joint WAM 则是把未来状态预测和动作生成彻底融合进同一个模型框架中。这也是目前各家顶尖实验室最看好、最具潜力的端到端方向。

按照底层生成范式的不同，Joint WAM 内部又分化出两条主流路线：

路线一：自回归（Autoregressive）

将视觉状态、未来状态和动作全部组织成 Token 序列，利用 Transformer 按时间顺序逐步预测。它的核心优势是与现有 LLM（大语言模型）的范式天然兼容，可以充分复用大模型的上下文能力；劣势在于顺序生成速度较慢，且在长序列中容易产生误差累积。

Explicit Decoupled Representation：未来视觉和动作通过不同的输出头（Head）分别预测，强调让 “视觉预测” 来辅助 “动作生成”。
Unified Discrete Representation：大一统路线，将多模态数据统一离散化为 Token，在同一个类似语言模型的框架内完成跨模态的联合生成。
Predictive Latent Representation：在隐空间中直接预测未来状态，巧妙卸下了像素级生成的庞大计算负担。

路线二：扩散生成路线（Diffusion-based）

终结VLA？英伟达押注的具身新范式，首篇世界动作模型WAM综述重磅发布

图 5. Diffusion-based Joint WAM 架构图：分为 Unified Stream 和 Mutli-Stream，其中 Multi-Stream 通过 Cross-Attention Coupled、Hidden-State Coupling 和 Shared Representation 融合

用扩散模型或 flow matching 联合生成未来状态和动作。它更适合连续、多峰、需要平滑控制的物理动作，但实时控制的推理成本仍是一大挑战。为了在联合生成与推理效率间取得平衡，主要衍生出两大架构策略：

Unified Stream（单流融合）：状态和动作进入同一主干模型，在共享表示中一起去噪，耦合度最高。按对未来状态的处理方式，可细分为：（1）Explicit Future Prediction：在显式空间中直接预测未来视频或 latent，可解释性强；（2）Implicit Future Alignment：未来状态仅作为训练监督，推理时不显式生成未来，极度适配轻量化真机部署。
Multi-Stream Coupling（多流耦合）：各模态分支独立建模，通过特定机制频繁交换信息。根据信息交互机制的不同，主要分为三种：（1）Cross-Attention Coupling（交叉注意力耦合）：视频与动作分支独立生成，通过交叉注意力层持续交换特征；（2）Hidden-State Coupling（隐状态耦合）：世界模型提取出包含时空信息的隐状态（Hidden States），单向传递给动作分支作为控制条件；（3）Shared Representation（共享表征）：视觉与动作先融合成统一的共享底层表示进行处理，再由各自独立的解码头分别输出未来状态与动作。

4.WAM 需要什么数据？——

四类核心数据源的协同融合

过去的 VLA 主要依赖带有精确动作标注的真实机器人轨迹数据，而 WAM 的数据获取版图迎来了维度的跨越：它不仅可以利用 “状态 - 动作” 强对齐的控制数据，更能直接吸收海量无动作标注的互联网原始视频，从中自主挖掘并学习物理规律。

终结VLA？英伟达押注的具身新范式，首篇世界动作模型WAM综述重磅发布

图 6. WAM 训练数据版图：按 Transfer Difficulty 与 Scaling Difficulty 展示机器人遥操作、便携式人类示范、仿真、人类 / 第一视角视频等数据来源。

终结VLA？英伟达押注的具身新范式，首篇世界动作模型WAM综述重磅发布

5. 如何评测 WAM？——

不止看 “像不像”，更要看 “能不能用”

评测 WAM 极具挑战性，因为它必须同时跨越两个维度的考核：世界预测能力（未来是否合理）与动作策略能力（控制是否有效）。

世界预测侧：传统的 PSNR 或 FVD 指标远远不够。一个视觉上极其逼真的生成视频，完全可能违背物理规律。评测需要关注三个层次：视觉一致性、物理合理性（重力、碰撞约束）、以及动作可还原性（能否从中反推出机器人的执行动作）。
动作策略侧：需要通过硬核的机器人 Benchmark 进行检验。除了基础的抓取放置，更需要考验模型在接触丰富（Contact-rich）、柔性物体形变、双臂协同操作等复杂物理交互中的成功率与泛化能力。

6. 挑战与未来：

WAM 下一个突破点在哪里？

尽管 WAM 展现出了通向具身智能终局的巨大潜力，但要将其从实验室原型真正推向物理世界的规模化部署，仍需跨越以下核心挑战：

架构设计的 “最优解” 未定：状态与动作的耦合深度尚无定论。Cascaded（级联式）与 Joint（联合式）路线在不同任务场景下孰优孰劣，仍需学界进行更系统的实证对比。
纯视觉表征的物理局限：真实的物理操作重度依赖触觉、力觉和本体感受。仅靠 RGB 图像预测，难以处理遮挡严重、材质多变或需要高精度接触的复杂任务。
数据融合缺乏标准化方法：海量视频与真实动作数据的配比原则、跨模态去噪策略目前仍高度依赖经验直觉，亟需建立科学且可复现的混合方法论。
长时程规划极易产生误差累积：长序列的未来预测必然带来状态漂移（State Drift）。探索分层 WAM 架构 —— 即高层负责长期的语义目标规划，低层负责局部的物理精细控制 —— 可能是未来的破局关键。

预测算力与实时推理的矛盾：一边是生成式模型庞大的世界状态预测计算量，另一边是机器人极其苛刻的高频实时控制需求。如何动态提取 “足够支撑行动的最小未来表征”，是迈向工程化落地的硬性瓶颈。

“物理幻觉” 要求重构安全机制：具备 “想象” 能力的模型，同样可能极度自信地预测出一个违背常理的未来。因此，WAM 的安全机制不仅要监控输出动作，更要具备拦截、验证 “不可信物理想象” 的能力，以防引发灾难性的执行。

7. 结语

WAM 的意义，绝不只是给 VLA 挂上一个预测插件，而是重新定义了具身智能的第一性原理：“在行动之前，先理解行动将如何改变世界。”

过去的机器人基础模型在追问 "What should I do next?"；而 WAM 进一步拷问灵魂："What will happen if I act, and how should I act to make the right future happen?"

如果 VLA 打通了语言与动作的桥梁，那么 WAM 则完成了动作与物理反馈的闭环。正如 Jim Fan 在红杉大会上留下的断言 —— 机器人终局的齿轮已经转动。在这场 “伟大的平行” 中，WAM 无疑是最关键的一块拼图。

文章来自于微信公众号 “机器之心”，作者 “机器之心”