本文主要介绍 xML 团队的论文:Discrete Diffusion in Large Language and Multimodal Models: A Survey。
自 GPT 引爆大语言模型热潮以来,自回归的大语言模型(LLMs)与多模态模型(MLLMs)已成为智能系统的基石。然而,当人们着眼于更快、更可控、更智能的生成范式时,一条新兴路径悄然浮现:离散扩散(Discrete Diffusion)。
本综述系统梳理了离散扩散方向的研究图谱,呈现了离散扩散语言模型(dLLMs)与离散扩散多模态语言模型(dMLLMs)的理论基础、代表模型、训练与推理技术,以及在推理、视觉、生物等多个领域的应用进展。
图 1 综述的框架结构与内容
传统大模型采用自回归(Autoregressive, AR)架构,其从左至右逐词生成方式虽然自然,但存在显著的性能瓶颈:无法并行解码、难以精确控制输出、局限于对输入的静态感知、对补全和逆向推理的建模能力差。这使其在需要结构化控制与动态感知的复杂场景中表现受限。
离散扩散模型打破了这一范式。它不再逐词预测,而是将生成视为一个「掩码 - 去噪」迭代过程,并行处理所有 Token,并借助全局注意力机制实现动态感知。这种设计带来了三大核心优势:
图 2 自回归模型与典型离散扩散模型的对比
D3PM(Discrete Denoising Diffusion Probabilistic Models)框架是众多离散扩散数理模型的起点。D3PM 给出了在离散时间上、离散状态空间中的马尔可夫模型。整个模型由两个对偶过程构成:前向扩散过程和反向去噪过程。
图 3 离散扩散模型的发展历程
随着离散扩散语言模型(dLLMs)快速崛起,近年来该领域涌现出一系列代表性模型。从早期探索性的轻量模型,到近期可比肩自回归 LLM 的离散扩散大模型,再到多模态与统一建模范式的拓展,离散扩散正逐渐演化为一条独立而完整的技术路径。综述将当前模型生态大致划分为以下四类:
1. 轻量级模型:早期的离散扩散模型参数量往往不超过 1B,代表作包括 D3PM、DiffusionBERT、RDM、Diffusion-NAT、TESS、SEDD、MDLM、MD4 等。这些模型重点在于探索基础的建模机制与去噪策略,验证离散扩散在文本和多模态生成任务上的可行性。
2. 大规模 dLLM:随着技术成熟,多个工作开始将扩散架构拓展至 10 亿以上参数量,构建具备完整语言理解与生成能力的「非自回归大模型」,代表模型包括:LLaDA 系列、DiffuGPT / DiffuLLaMA 和 DREAM 等。这些工作从规模上拓展了扩散语言模型的边界,系统性地探索了其工程可行性。
3. 多模态扩展(dMLLM):在语言能力日趋完善之后,研究者开始探索 dLLMs 在多模态任务中的适应性,典型代表有:Dimple、LaViDa 和 LLaDA-V。
4. 统一生成模型:离散扩散在图片生成中的可行性很早就被验证了,随着语言生成能力的完善,MMaDA、FUDOKI 和 Muddit 等模型给出了一种统一的架构,使用离散扩散模型在一个神经网络中同时建模文本和视觉的生成。
方兴未艾的 dLLM 与 dMLLM 正在不断演进,伴随而来的还有训练与推理技术的持续创新。本综述系统地梳理并归纳了已有模型中采用的核心方法,同时也在不断收录和更新该领域的最新进展。
训练技术
离散扩散模型在训练过程中面临一系列独特挑战,包括语料利用率低、生成长度偏差(length bias)、随机时间采样带来的监督信号覆盖率低等。为解决这些问题,研究人员提出了多种创新性的训练机制。综述中主要归纳了以下几类:
这些技术从训练目标、数据使用到网络初始化等方面优化了扩散训练流程,使 dLLMs 得以在更大规模、更复杂任务上保持稳定、有效的训练表现。
图 4 几种掩码调度函数
推理技术
dLLMs 和 dMLLMs 的推理过程中的每一步都会对所有的 token 进行并行的同步预测,之后基于特定的规则来决定要保留哪些位置的预测。为兼顾生成质量与效率,研究人员提出了一系列推理技术。综述中主要归纳了以下几类:
这些推理技术不仅提升了生成效率,更赋予了 dLLMs 修正和控制的能力,逐步构建出具备实用价值的非自回归语言推理范式。
图 5 对 Unmasking 策略的展示
除了以上内容,综述中也介绍了 dLLM 和 dMLLM 在生物、视觉、推理等方面的应用,探讨了其未来可能的发展方向。
随着大语言模型不断拓展其边界,离散扩散模型(dLLMs 与 dMLLMs)为传统自回归范式提供了强有力的替代路径。并行解码、结构控制与动态感知等优势使它们突破了自回归模型在效率与控制性上的瓶颈。从基础理论到工程优化,再到多模态与跨领域应用,离散扩散范式正在逐步走向成熟。
@misc {yu2025dllmsurvey,
title={Discrete Diffusion in Large Language and Multimodal Models: A Survey},
author={Runpeng Yu and Qi Li and Xinchao Wang},
year={2025},
eprint={2506.13759},
archivePrefix={arXiv},
primaryClass={cs.LG},
url={https://arxiv.org/abs/2506.13759},
}
文章来自于“机器之心”,作者“于润芃和李奇”。