扩散模型总结

定义与原理

发展历程

正向扩散过程

反向扩散过程

噪声预测网络

离散时间模型

连续时间模型

条件扩散模型

生成质量

训练稳定性

采样灵活性

图像生成

音频合成

文本生成

计算效率

模型复杂度

定义与原理

扩散模型是一种新型的生成模型，其核心原理源于热力学中的扩散过程。这种模型通过逐步添加高斯噪声来模拟数据的“扩散”，并学习如何逆向这个过程以生成新的数据。

扩散模型的工作机制可以概括为两个主要过程：

正向扩散过程 ：从原始数据点 (\mathbf{x}_0) 开始，逐步添加高斯噪声，最终得到完全随机的噪声图像 (\mathbf{x}_T) 。这个过程可以用马尔可夫链来描述，每一步的分布为：

[q(\mathbf{x}t|\mathbf{x}{t-1}) = \mathcal{N}(\mathbf{x}t; \sqrt{1 - \beta_t}\mathbf{x}{t-1}, \beta_t\mathbf{I})]

其中， (\beta_t) 是预先定义的噪声参数，随时间逐渐增加。

反向扩散过程 ：学习如何逆向正向扩散过程，从完全随机的噪声图像 (\mathbf{x}T) 开始，逐步去除噪声，最终恢复到原始数据分布 (\mathbf{x}0) 。这个过程通过神经网络 (p{\theta}(\mathbf{x}{t-1}|\mathbf{x}_t)) 来近似，其中 (\theta) 是模型参数。

扩散模型的核心创新在于将生成过程分解为多个小的“去噪”步骤，这种方法允许模型在生成过程中进行自我修正，从而产生更高质量的样本。此外，扩散模型还具有以下特点：

扩散模型的发展历程是一个持续创新的过程，其关键节点如下：

2015年 ：扩散模型的概念首次提出，奠定了理论基础。
2020年 ：Denoising Diffusion Probabilistic Models (DDPM) 的发表标志着扩散模型在图像生成领域的应用开始成为主流。
2021年 ：Improved Denoising Diffusion Probabilistic Models对DDPM进行了改进，提高了模型的性能和效率。
2022年 ：Diffusion Models Beat GANs on Image Synthesis论文的发表进一步推动了扩散模型的发展，尤其是在显式分类器引导方面的创新。
2023年 ：基于CLIP的多模态图像生成技术的出现，如DALL-E和Imagen，显著提升了扩散模型的能力和应用范围。

这些重要进展不仅提高了扩散模型的生成质量，还大大加快了其生成速度，推动了AI作画时代的到来。

扩散模型的正向扩散过程是其核心机制之一，它模拟了数据从原始分布到高斯噪声分布的逐渐转变过程。这个过程可以被看作是一个马尔可夫链，每一步都在前一步的基础上添加高斯噪声。

正向扩散过程的数学表示如下：

[q(\mathbf{x}t|\mathbf{x}{t-1}) = \mathcal{N}(\mathbf{x}t; \sqrt{1 - \beta_t}\mathbf{x}{t-1}, \beta_t\mathbf{I})]

其中：

这个过程的关键特点包括：

噪声水平逐渐增加 ： (\beta_t) 的值随着时间步 (t) 的增加而增大，导致噪声水平逐渐提高。
均值和方差的变化 ：每一步的分布均值为 (\sqrt{1 - \beta_t}\mathbf{x}_{t-1}) ，方差为 (\beta_t\mathbf{I}) 。
数据的“扩散” ：随着时间的推移，原始数据的特征逐渐被噪声掩盖，最终变为标准高斯分布。

正向扩散过程的实际实现通常采用重参数化技巧：

[ \mathbf{x}t = \sqrt{1 - \beta_t}\mathbf{x}{t-1} + \sqrt{\beta_t}\mathbf{z}_{t-1} ]

其中 (\mathbf{z}_{t-1}) 是从标准高斯分布中采样的噪声。

这个过程的重要性在于：