扩散模型最新综述！ - 科技前沿 - 科技动向 - 美国华裔教授专家网 ScholarsUpdate.com

扩散模型最新综述！

作者：算法进阶｜ 2024/3/21 11:05:07 ｜浏览：2301 ｜评论：0

1 介绍

本文综述了深度生成模型，特别是扩散模型（Diffusion model），如何赋予机器类似人类的想象力。扩散模型在生成逼真样本方面显示出巨大潜力，克服了变分自编码器中的后分布对齐障碍，缓解了生成对抗网络中的对抗性目标不稳定性。

扩散模型包括两个相互连接的过程：一个将数据分布映射到简单先验分布的前向过程和一个相应的反向过程。前向过程类似于具有时变系数的简单布朗运动。神经网络通过使用去噪评分匹配目标来训练估计得分函数。

然而，扩散模型与GANs和VAEs相比，其采样过程本质上需要更耗时的迭代过程。这是由于通过利用ODE/SDE或马尔科夫过程将先验分布转化为复杂数据分布的迭代转换过程，这需要反向过程中进行大量的函数评估。

为了应对这些挑战，研究人员提出了各种解决方案。例如，提出了先进的ODE/SDE求解器来加速采样过程，同时采用了模型传授策略来实现这一目标。此外，还引入了新型前向过程来增强采样稳定性或促进维度降低。此外，近年来有一系列研究致力于利用扩散模型有效地连接任意分布。为了提供一个系统性的概述，我们将这些进展分为四个主要领域：采样加速、扩散过程设计、似然优化和连接分布。此外，本综述将全面考察扩散模型在不同领域中的各种应用，包括计算机视觉、自然语言处理、医疗保健等。

扩散模型最新综述！

图1 扩散模型概述。（左）生成模型的简介。GAN和EBM首先使用生成器来捕捉数据分布。通过从训练数据中采样，根据真实分布来校正估计分布。捕捉分布的过程以及鉴别标准是不同的。VAE、NF和DPM通过编码过程将真实分布直接投影到预定义的分布中。通过解码预定义的分布的样本，获得实例。它们应用不同的预定义分布z和编码和解码过程。（右）扩散模型的简化表述。一般程序遵循右上角图所示。数据分布被扩散到随机高斯噪声中，并通过去噪来反向扩散。（1）DDPM（第2.2.1节）实现沿着离散时间线的分步扩散和去噪过程。（2）SDE（第2.2.2节）建立连续时间线，通过基于功能的随机微分方程（SDE）实现状态之间的翻译。（3）CDPM（第2.3节）在DPM的每个采样步骤中采用条件 𝑐 ，以实现可控制的生成。
2 准备工作

2.1 概念和定义

2.1.1 时间和状态

在扩散模型中，过程在时间轴上展开，时间轴可以是连续或离散。模型的状态表示数据分布，初始分布添加噪声逐渐变为先验状态。先验状态是从高斯分布中采样，起始状态到先验状态为中间状态，各状态都有关联的边缘分布。因此，扩散模型能够模拟数据分布随时间的变化，生成接近先验状态的样本。进展是一系列中间状态的序列，每个状态对应扩散过程中的时间点。

2.1.2 前向/反向过程，以及过渡内核

扩散模型是一种生成模型，它通过正向过程𝐹将起始状态转化为先验高斯噪声，反向过程𝑅则使用转移核将先验状态反噪并返回到起始状态。离散框架为连续扩散过程提供了离散时间近似，允许实际实施和有效计算。扩散模型提供了更广泛的生成空间和可控制的生成，并且逐渐改进分布以实现向目标分布的有控制移动。

扩散模型最新综述！

2.1.3 从离散到连续

当扰动核足够小时，可以将离散过程（式（1）和式（2））推广到连续过程。离散马尔可夫链的扩散模型可以纳入连续随机微分方程（SDE）框架，其中生成过程逆转固定正向扩散过程。与反向SDE等价的预备ODE边际也已被推导出来。连续过程具有更好的理论支持，并为将ODE/SDE社区中的现有技术应用于扩散模型打开了大门。

2.2 背景

本节介绍了三种基础形式化方法：去噪扩散概率模型、分数SDE公式和条件扩散概率模型。

2.2.1 去噪扩散概率模型（DDPM）

DDPM是一种生成模型，通过从高斯噪声中恢复数据来生成新数据。该模型通过定义前向和反向过程以及转移核，将离散过程推广到连续过程。DDPM模型可以通过选择不同的前向步骤来生成更高质量的样本。在生成过程中，DDPM模型通过逐步添加高斯噪声将数据转化为高斯分布，然后通过反向过程逐渐去除噪声，最终生成新的数据。

2.2.2 分数SDE公式

分数SDE将DDPM中的离散时间方案扩展到基于随机微分方程的连续时间框架中，并基于ODE形式化提出了附加的确定性采样框架。向前SDE将连续扩散过程和随机微分方程联系起来，反向过程与ItōSDE的解相关联，该解由用于均值漂移的漂移项和用于额外噪声的白噪声布朗运动组成。提出了两种向前过程：保持差异（VP）和差异爆炸（VE）SDE。扩散模型的抽样是通过正向过程的相应反向时间SDE进行的。概率流ODE支持与SDE具有相同边缘概率密度的确定性过程，任何类型的扩散过程都可以转化为ODE的一种特殊形式。与SDE不同，概率流ODE可以以更大的步长进行求解，因为它们没有随机性。

2.3 条件扩散概率模型

扩散模型是一种通用的生成模型，可以从无条件分布和条件分布生成数据样本，得分网络在训练过程中整合条件。各种采样算法，包括无监督学习算法和监督学习算法，被设计用于条件生成。带标签条件采样使用带标签条件来引导每个采样步骤的梯度，通常需要一个具有UNet编码器架构的额外分类器来为特定标签生成条件梯度。无标签条件采样使用自我信息作为指导，通常以自我监督的方式应用，用于去噪、上色到图像和修复任务。

3 算法改进

扩散模型在数据生成方面表现出色，但在实际应用中仍有改进空间。与GANs和VAEs相比，扩散模型需要缓慢的迭代采样过程，且前向过程在高维像素空间运行。本文介绍了四种增强扩散模型的最新发展：（1）采样加速技术，用于加快标准的ODE/SDE模拟；（2）新的前向过程，用于改进像素空间中的布朗运动；（3）似然优化技术，用于增强扩散ODE似然；（4）桥梁分布技术，利用扩散模型概念将两个不同的分布连接起来。这些技术有助于提高扩散模型的性能和效率。

扩散模型最新综述！

3.1 采样加速

尽管扩散模型具有高保真度生成的能力，但其实际应用仍受制于其较慢的采样速度。本部分简要概述了四种提高采样速度的先进技术：蒸馏、训练计划优化、免训练加速以及合并扩散和其他生成模型。

3.1.1 知识蒸馏

知识蒸馏是将知识从大型模型转移到小型模型的技术，旨在使用较少步骤或较小网络生成样本，并最小化原始样本和生成样本之间的差异。它为经济、可控和加速生成提供了最优映射。使用ODE表示法，知识蒸馏从教师模型到学生模型的ODE轨迹类似于将先验分布映射到目标分布的有效路径。一些工作已应用于提高扩散模型的性能，例如渐进地蒸馏采样轨迹，每两步对潜在映射进行整形。最佳运输通过最小化分布之间的运输成本实现最佳轨迹。ReFlow和DSNO通过一步生成和神经操作器用于直接时间路径建模实现最佳轨迹。然而，SDE轨迹蒸馏随机轨迹仍具有挑战性，目前提出的工作很少。

3.1.2 训练计划优化

训练计划优化包括修改传统的独立于采样的训练设置，如扩散方案和噪声方案等传统训练设置。训练增强功能分为两个主要领域：扩散方案学习和噪声尺度设计。扩散方案学习包括编码度优化和投影方法，如CCDF、Franzese等人、TDPM、ESDDPM、软扩散和模糊扩散模型等。噪声尺度设计包括向前噪声设计和反向噪声设计，向前噪声设计方法将噪声尺度参数化为信噪比，将其与训练损失和模型类型联系起来。反向噪声设计通过训练混合损失来隐式地学习反向噪声尺度，或通过噪声预测网络在祖先采样之前更新反向噪声尺度，如VDM、FastDPM、改进的DDPM和San Roman等人等。

3.1.3 免训练采样

无监督学习方法利用先进的采样器加速预训练扩散模型的采样过程，无需重新训练模型。此类方法分为几个方面：扩散ODE和SDE采样器的加速、分析方法和动态规划。ODE加速中，DDIM可以被视为概率流ODE，后来的工作将DDIM解释为应用协方差保真扩散的常微分方程（ODE）上的指数积分器的乘积。SDE加速中，Gotta Go Fast 使用自适应步长进行更快SDE采样，EDM将更高阶的ODE与类似于Langevin动力学中的噪声添加和去除相结合。分析方法中，现有的无监督采样方法将逆协方差尺度视为一组手工制作的噪声序列，而没有考虑它们动态地。动态规划调整中，动态规划（DP）通过使用记忆技术实现所有选择的遍历，以在更短的时间内找到优化解决方案。

3.1.4 合并扩散和其他生成模型

扩散模型可以与其他生成模型（如生成对抗网络（GAN）或变分自编码器（VAE））协同工作，以简化采样过程。例如，可以通过在扩散采样过程的中间阶段获得的带有噪声的数据来直接通过VAE[87]或GAN[86]预测原始数据x0。此外，VAE[73]或GAN[71]可以在扩散过程中的中间时间步骤生成样本，然后由扩散模型进行去噪，直到时间t=0，以加快时间穿越。

3.2 扩散过程设计

扩散模型中的传统前向过程被视为像素空间中的布朗运动，可能不适合生成建模。为此，研究致力于创建新的扩散过程，以简化和增强神经网络的后向过程。该研究分为两部分：开发适用于扩散模型的潜在空间，以及用改进的前向过程取代传统的前向过程。此外，还特别关注为非欧几里得空间（如流形、离散空间、函数空间和图）定制的扩散过程。

3.2.1 潜在空间

研究人员探索了一种在潜在空间中训练扩散模型的方法，以增强神经网络并建立更直接的回溯过程。这种方法在LSGM和INDM中得到了示例，它们共同训练扩散模型和变分自编码器或归一化流模型。这种方法的目标是优化编码器-解码器对和扩散模型的加权去噪分数匹配损失，以优化这两个模型。这种方法有助于建立简单和采样更容易的潜在空间，并应用于Stable Diffusion等实际应用中。同时，DVDP将像素空间分解为正交组件，并动态调整每个组件在图像扰动过程中的衰减，类似于动态图像下采样和上采样。

3.2.2 新兴的前向过程

隐式空间扩散算法有其优势，但也增加了框架的复杂性和计算负荷。为了解决这个问题，现代研究正在探索前向过程设计，以创建更健壮和更高效的生成模型。例如，泊松场生成模型（PFGM）将数据视为扩充空间中的电荷，沿电场线将简单分布引导到数据分布。PFGM++扩展了PFGM，使用更高维度的扩充变量，这些模型之间的插值揭示了最优点。Dockhorn等人引入了临界阻尼朗之夫扩散（CLD）模型，该模型结合了通过哈密尔顿动力学相互作用的“速度”变量。其他研究则探索替代的污染过程，例如冷扩散使用任意图像转换（如模糊）作为前向过程，而热耗散在像素空间应用。此外，还有努力使用先进的正态扰动内核来增强训练和采样。

3.2.3 非欧几里得空间上的扩散模型

离散空间深度生成模型在处理文本、分类数据和向量量化数据方面取得了显著进展。扩散模型已被广泛应用于生成语言文本、分割图和无损压缩等任务。向量量化数据在自回归编码器中实现出色的性能。扩散技术解决了VQ-VAE中的单向偏差和累积预测误差，并在进一步实现的文本到图像、文本到姿态以及文本到多模态的工作中得到应用。基于图的神经网络在人体姿态、分子和蛋白质等领域备受追捧，目前的方法应用扩散理论处理图数据。此外，还有NVDiff和Function Dutordoir等人引入了扩散模型采样，通过联合后验采样捕获无穷维分布。

3.3 似然优化

虽然扩散模型优化ELBO以处理对数似然不可处理的问题，但连续时间扩散模型在优化似然函数方面面临挑战。为增强似然函数的训练，设计了两种方法：最大似然估计训练和混合损失。

3.3.1 最大似然训练

ScoreFlow，VDM，和[104]在扩散模型中建立了MLE训练和加权去噪分数匹配（DSM）目标之间的联系，主要是通过使用吉布斯定理。ScoreFlow表明在特定的加权方案下，DSM目标为负对数似然提供了上限。这一发现使得基于分数的神经网络MLE近似于基于分数的分数MLE。

3.3.2 混合损失

采用混合损失设计的方法，可以提高DSM中的模型似然性。该方法改进了DDPM，使用简单的重参数化技术和混合学习目标来学习反向过程的方差，混合学习目标结合了变分下界和DSM。此外，引入高阶分数匹配损失也被证明有助于提高对数似然。

3.4 桥接分布

扩散模型擅长将高斯分布转化为其他分布，但在构建任意分布间的桥梁时面临挑战。为解决此问题，已提出多种方法，包括α-混合方法、修正流方法、构建ODE方法等。α-混合方法涉及迭代混合和解混合以创建确定性桥梁，扩散模型在高斯分布端被视为特殊情况。修正流方法包含额外步骤以拉直桥梁。其他方法建议构建ODE，使用两个分布间的通用插值函数，或探索利用Schrödinger桥或高斯分布作为连接两个扩散ODE的交汇点。

4 应用

扩散模型最新综述！

4.1 图像生成

扩散模型在图像生成方面取得了显著的性能，无论是传统的基于类别的条件生成[10, 27, 138]，还是更复杂的基于文本或图像的条件[36, 143]，或者是它们的组合[142]。因此，我们接下来将集中讨论模拟现实世界场景的应用设置，根据条件输入对应用进行分类。

文本条件。文本条件机制在文本到图像生成中表现出色，能够将文本信息有效地融合到生成的图像中，并实现许多无需训练的图像编辑。通过利用和操作跨注意力层中的键、值或注意力矩阵，可以控制生成图像的概念和主题。

图像条件。扩散模型支持图像条件，可以通过输入要编辑的图像、深度图或人体骨骼等作为条件来实现图像编辑。

4.2 3D生成

扩散模型生成三维模型主要有两种方法：直接使用三维数据训练模型，以及通过二维扩散先验生成三维内容。

三维数据条件方面，扩散模型在NeRF、点云、体素、高斯散射等各种三维表示中得到有效应用。例如，有研究直接为三维对象生成点云，有的引入新的点云补全范式，还有的将图像合成作为点云扩散模型附加的约束输入。

二维扩散先验方面，Dreamfusion利用分数传递样本（SDS）目标从预训练文本到图像模型中提取NeRF，通过梯度下降优化一个随机初始化的NeRF，使得从不同角度渲染的图像损失较低。

4.3 视频生成

视频扩散模型是一种在二维扩散模型基础上增加时间轴的模型，用于明确建模跨帧依赖性。代表性工作包括Make-A-Video、AnimatedDiff、RVD、FDM和MCVD等。其中，RaMViD使用3D卷积神经网络将图像扩散模型扩展到视频中，并设计了一种条件技术用于视频预测、插值和上采样。

4.4 医学分析

扩散模型为医学分析中的挑战提供了解决方案，尤其是获取大规模高质量标注数据集的挑战。这些模型在分布内分析和跨分布生成任务中表现优秀。

分布内分析。扩散模型在医学分析中表现出色，能够捕捉带有强先验信息的医学图像，已被成功应用于超分辨率、分类和抗噪声能力，例如Score-MRI、Diff-MIC和MCG。

跨分布生成。多模态指导提高了医学分析的生成能力，可以完成不同类型的稀缺图像之间的图像翻译，包括高质量格式图像、健康图像和无偏图像。此外，还有方法使用少量高质量样本生成逼真的医学图像来丰富训练数据集。

4.5 文本生成

文本生成是弥合人类与先进人工智能之间鸿沟的关键技术之一，要解决生成离散标记的挑战，主要有两种方法：离散生成和潜在生成。

离散生成方法将输入视为离散单词，利用先进的技术、参数化和预训练模型。D3PM和Argmax将单词视为分类向量，使用离散转移矩阵建立前向和后向过程，将生成的数据视为平稳分布。DiffusionBERT将扩散模型与预训练语言模型结合，展示了改进的文本生成性能，并引入了新型噪声调度，探索将时间步骤纳入BERT进行反向扩散过程。

潜在生成方法侧重于在标记的潜在空间中生成文本，捕捉扩散过程的连续本质，采用增强型损失函数、多样的生成类型和先进的模型架构。例如，LM-Diffusion和GENIE展示了基于扩散的解码器的潜力用于文本生成，并有望增强嵌入空间建模、建立与大型预训练语言模型的连接、并支持跨模态生成。

4.6 时间序列生成

时间序列建模在趋势预测、决策制定和实时分析中具有重要作用。扩散模型通过时间序列数据模块增强了这一过程，实现了卓越的分析和多样化生成。根据不同的遮蔽策略，先验条件可以被分类为填充任务和预测任务。CSDI提出了一种基于双向CNN模块的自我监督训练框架，用于医疗保健和环境数据的连续生成。此外，结合时空模块，如Graph UNet和RNN，成功实现了时间序列的时空概率学习。未来研究应关注准确建模时间依赖序列以及在采样过程中融入稳健的自我条件指导。

4.7 音频生成

合成高质量语音模拟在多个领域有广泛应用，如音乐创作、虚拟现实、游戏开发及语音助手等，提供个性化、身临其境的音频体验，并改善人机交互。扩散模型适合处理音频数据，利用先验知识管理高维、时序信息。语音生成依赖混合条件，结合文本和控制标签实现特定语义或声音特征。如WaveGrad、DiffSinger等方法构成基础，附加特征如响度、旋律等实现可控风格生成。文本和音乐生成依赖于频谱图特征。扩散模型整合文本和节奏，利用频谱图特征和多视图标签。引导-TTS等方法使用说话者文本编码器、持续时间预测器和音素分类器等组件进行内容生成和语音风格指导。额外的指导因素包括情感、噪声级别和音乐风格。

4.8 分子设计

分子是生命的基础构件，分子功能设计是一个长期挑战。生成模型通过提供替代方案改变了分子设计，有助于生成新的有效药物分子结构，扩展了药物设计的可能性。在药物发现中，扩散模型有助于探索化合物空间，加速潜在药物的搜索，提高药物发现效率。此外，分子设计模式可分为无条件生成和跨模式生成。

无条件生成主要使用扩散模型，具有速度快和高质量建模能力。方法之一是在三维空间中生成分子结构，捕捉其构象，但可能导致低多样性和大误差。另一种方法捕捉高维空间中的多个特征和结构特征分布，可产生更丰富多样的分布和可解释性。

跨模式生成专注于将功能作为条件进行整合，包括基于扩散的方法、基于序列的跨模式方法、基于结构的跨模式方法和分子对接和抗体设计方法。基于扩散的方法结合去噪模型增强建模能力。基于序列的方法利用蛋白质序列和多重序列对来训练模型并整合结构信息和功能标签。基于结构的方法利用结构预测模型协助精确生成，结合序列和功能信息。其他方法利用目标结构的先验知识来增强生成并获得有希望的构象。

4.9 图生成

使用扩散模型生成图的动机是为了研究和模拟现实世界的网络和传播过程，以更好地理解和解决现实问题。这种方法提供了深入了解复杂系统中相互作用和信息传播机制的机会，并有助于扩大图的规模、细化图特征和解决特定数据集的问题。扩散模型的应用包括社会网络分析、生物神经系统的分析以及图数据的生成和评估。一些扩散模型，如PCFI、EDGE和DiffFormer等利用节点度和能量约束作为条件，实现离散和连续地生成邻接矩阵和潜在嵌入。此外，D4Explainer将图数据的分布作为条件，并结合分布损失和反事实损失来探索反事实实例。

5 局限性和未来发展

5.1 数据限制下的挑战

扩散模型面临速度慢、从低质量数据中辨识模式困难和无法泛化新场景等挑战。处理大规模数据集还导致计算上的难题，限制了模型的规模和复杂性。有偏见或数据采样不均也会影响模型的生成能力。

5.2 基于可控分布的生成

提高模型在特定分布内的理解和生成能力是重要的。关注数据模式及相关性有助于生成与训练数据匹配的样本。优化技术和参数结构可以增强理解，实现更受控和精确的生成，提高泛化性能。

5.3 LLMs的多模态生成

整合大型语言模型（LLMs）是扩散模型未来的发展方向，能推进多模态生成。整合LLMs增强了对不同模态间相互作用的了解，产生更真实多样的输出。此外，LLMs提高基于提示的生成效率，扩展了模态生成的应用领域。

5.4 与机器学习领域的集成

结合扩散模型与机器学习理论为提高任务性能提供新机会。半监督学习尤其有助于解决泛化等挑战，如在有限数据下实现有效条件生成。利用未标记数据增强泛化能力和性能。强化学习通过微调算法提供有针对性的指导，确保有目的的探索和受控生成。引入额外反馈丰富强化学习，提高受控条件生成能力。

参考链接：https://github.com/chq1155/A-Survey-on-Generative-Diffusion-Model

相关栏目：『科技前沿』

JNS 2026年高峰會議精彩摘要（二）【以色列的高科技时代】	2026-07-13	[263]
黄仁勋说，2—3年内90%的新知识可能由AI生成：真正可怕的不是AI会写，而是人不会判断	2026-06-20	[1142]
独家对话：AI正改变数学研究，一名中国本科生站在前沿	2026-06-20	[1046]
一个月烧掉5亿美元Token，多家美国科技巨头紧急叫停	2026-06-17	[1122]
2026年企业AI发展趋势研究报告：五大拐点信号表明，规模化落地的窗口已经打开	2026-05-28	[2038]
深度解读Anthropic创始人提出的人类第0世界	2026-05-28	[1822]
Globant：2026年技术趋势报告	2026-05-28	[1710]
两台车，改变了一个时代	2026-05-28	[1740]
AI不是思维的替代品，而是思辨能力的放大器	2026-05-05	[2527]
刚刚，美国AI霸主换了！Anthropic年收300亿，碾压OpenAI	2026-05-05	[2472]