目录
定义与原理
发展历程
正向扩散过程
反向扩散过程
噪声预测网络
离散时间模型
连续时间模型
条件扩散模型
生成质量
训练稳定性
采样灵活性
图像生成
音频合成
文本生成
计算效率
模型复杂度
定义与原理
扩散模型是一种新型的生成模型,其核心原理源于热力学中的扩散过程。这种模型通过逐步添加高斯噪声来模拟数据的“扩散”,并学习如何逆向这个过程以生成新的数据。
扩散模型的工作机制可以概括为两个主要过程:
-
正向扩散过程 :从原始数据点 (\mathbf{x}_0) 开始,逐步添加高斯噪声,最终得到完全随机的噪声图像 (\mathbf{x}_T) 。这个过程可以用马尔可夫链来描述,每一步的分布为:
[q(\mathbf{x}t|\mathbf{x}{t-1}) = \mathcal{N}(\mathbf{x}t; \sqrt{1 - \beta_t}\mathbf{x}{t-1}, \beta_t\mathbf{I})]
其中, (\beta_t) 是预先定义的噪声参数,随时间逐渐增加。
-
反向扩散过程 :学习如何逆向正向扩散过程,从完全随机的噪声图像 (\mathbf{x}T) 开始,逐步去除噪声,最终恢复到原始数据分布 (\mathbf{x}0) 。这个过程通过神经网络 (p{\theta}(\mathbf{x}{t-1}|\mathbf{x}_t)) 来近似,其中 (\theta) 是模型参数。
扩散模型的核心创新在于将生成过程分解为多个小的“去噪”步骤,这种方法允许模型在生成过程中进行自我修正,从而产生更高质量的样本。此外,扩散模型还具有以下特点:
-
训练稳定性 :通过最大化证据下界 (ELBO) 来训练模型,这使得扩散模型的训练过程更加稳定。
-
采样灵活性 :可以通过调整采样步数和噪声水平来控制生成质量和多样性。
-
高分辨率生成 :支持生成高分辨率图像,这在图像生成任务中具有重要意义。
发展历程
扩散模型的发展历程是一个持续创新的过程,其关键节点如下:
-
2015年 :扩散模型的概念首次提出,奠定了理论基础。
-
2020年 :Denoising Diffusion Probabilistic Models (DDPM) 的发表标志着扩散模型在图像生成领域的应用开始成为主流。
-
2021年 :Improved Denoising Diffusion Probabilistic Models对DDPM进行了改进,提高了模型的性能和效率。
-
2022年 :Diffusion Models Beat GANs on Image Synthesis论文的发表进一步推动了扩散模型的发展,尤其是在显式分类器引导方面的创新。
-
2023年 :基于CLIP的多模态图像生成技术的出现,如DALL-E和Imagen,显著提升了扩散模型的能力和应用范围。
这些重要进展不仅提高了扩散模型的生成质量,还大大加快了其生成速度,推动了AI作画时代的到来。
正向扩散过程
扩散模型的正向扩散过程是其核心机制之一,它模拟了数据从原始分布到高斯噪声分布的逐渐转变过程。这个过程可以被看作是一个马尔可夫链,每一步都在前一步的基础上添加高斯噪声。
正向扩散过程的数学表示如下:
[q(\mathbf{x}t|\mathbf{x}{t-1}) = \mathcal{N}(\mathbf{x}t; \sqrt{1 - \beta_t}\mathbf{x}{t-1}, \beta_t\mathbf{I})]
其中:
-
(\mathbf{x}_t) :t时刻的样本
-
(\beta_t) :噪声水平参数,随时间增加
-
(\mathbf{I}) :单位矩阵
这个过程的关键特点包括:
-
噪声水平逐渐增加 : (\beta_t) 的值随着时间步 (t) 的增加而增大,导致噪声水平逐渐提高。
-
均值和方差的变化 :每一步的分布均值为 (\sqrt{1 - \beta_t}\mathbf{x}_{t-1}) ,方差为 (\beta_t\mathbf{I}) 。
-
数据的“扩散” :随着时间的推移,原始数据的特征逐渐被噪声掩盖,最终变为标准高斯分布。
正向扩散过程的实际实现通常采用重参数化技巧:
[ \mathbf{x}t = \sqrt{1 - \beta_t}\mathbf{x}{t-1} + \sqrt{\beta_t}\mathbf{z}_{t-1} ]
其中 (\mathbf{z}_{t-1}) 是从标准高斯分布中采样的噪声。
这个过程的重要性在于:
-
数据增强 :通过逐步添加噪声,扩散模型可以生成更多样化的样本,提高模型的泛化能力。
-
训练稳定性 :正向扩散过程的设计使得模型的训练更加稳定,降低了模型崩溃的风险。
-
高分辨率生成 :通过调整扩散步数,可以控制生成样本的分辨率,