Elucidating the Design Space of Diffusion-Based Generative Models 阅读笔记

文章用一种新的设计框架统一diffusion-based model，并使用模块化（modular）的思想，分别从采样、训练、score network设计三个方面分析和改进diffusion-based model。

之前的工作¹已经把diffusion-based model统一到SDE或者ODE框架下了，这篇文章的作者同样也从SDE和ODE的角度出发，不过换了一种SDE和ODE的表示形式。

假设有方差是 $\sigma_{data}$ 的数据分布 $p_{data}(\mathbf x)$ 。考虑一族分布 $p(\mathbf x; \sigma)$ ，其通过对数据添加方差为 $\sigma$ 的高斯噪声产生。在变化的过程中 $\hat{\mathbf x}$ 会被缩放 $\mathbf x=s(t)\hat{\mathbf x}$ 。注意 $p(\mathbf x; \sigma)$ 是针对未缩放的样本的。
则有下面的ODE描述数据分布随着时间的变化：
$\mathrm{d} \mathbf x = \left[ \frac{\dot s(t)}{s(t)} \mathbf x - s(t)^2 \dot\sigma(t) \sigma(t) \nabla_{\mathbf x} \log p(\frac{\mathbf x}{s(t)}; \sigma(t)) \right] dt \tag{4}$ 对于上面的ODE，perturbation kernel的形式是：
$p_{0t}(\mathbf x(t) | \mathbf x(0)) = \mathcal N(\mathbf x(t) ; s(t)\mathbf x(0), s(t)^2\sigma(t)^2 \mathbf I) \tag{11}$ 在之前的工作¹中SDE的形式是：
$\mathrm{d} \mathbf x = f(t)\mathbf x + g(t)dw_t \tag{10}$ 其中 $s(t)=\exp(\int_o^t f(\xi)d\xi)$ ， $\sigma(t)=\sqrt{\int_o^t \frac{g(\xi)^2}{s(\xi)^2}d\xi}$ 。

不同于之前的论文，这篇文章考虑的是一个直接估计去噪输出的去噪函数 $D(\mathbf x;\sigma)$ ：
$\mathbb E_{y \sim p_{data}} \mathbb E_{\mathbf n \sim \mathcal N(\mathbf 0, \sigma^2 \mathbf I)} \| D(\mathbf y + \mathbf n;\sigma) - \mathbf y \|_2^2,~~~~\nabla_{\mathbf x}\log p(\mathbf x ; \sigma) = (D(\mathbf x; \sigma) - \mathbf x)/ \sigma^2 \tag{2,3}$ 其中 $\mathbf y$ 是训练样本， $\mathbf n$ 是添加的噪声。在这种设置下，score function的计算变成了用 $D(\mathbf x;\sigma)$ 估计添加的噪声。用网络 $D_\theta(\mathbf x;\sigma)$ 按照公式（2）可以估计 $D(\mathbf x;\sigma)$ 。需要注意的是， $D_\theta(\mathbf x;\sigma)$ 可能包括额外的预处理步骤和后处理步骤。

ODE解轨迹的形状由 $\sigma(t)$ 和 $s (t)$ 决定。因为在求解微分方程的时候截断误差（truncation error）和 $d x / d t$ 的曲率有关，作者认为最好的选择是 $\sigma(t)=t$ 和 $s (t) = 1$ ，这样 $dx/dt=(\mathbf x-D(\mathbf x;t))/t$ ，并且 $\sigma$ 和 $t$ 是相同的，两个符号可以串着用。好处是在任何 $x, t$ 位置，一个到 $t = 0$ 的Euler步就是对去噪图像的估计 $D_\theta(\mathbf x;t)$ ，解估计的切线总是指向去噪图像。如下图所示（c）也就是 $\sigma(t)=t$ 和 $s (t) = 1$ 的情况，这和DDIM相同。
在这里插入图片描述

作者将SDE表示成：
在这里插入图片描述
这揭示了为什么随机性在实践中有帮助：隐式朗之万扩散驱动样本在给定时间朝向所需的边际分布，主动纠正早期采样步骤中产生的任何错误。

直接用网络 $D_\theta$ 预测 $D(\mathbf x;\sigma)$ 在实际中效果并不好。对于有监督训练神经网络而言，每个样本的梯度幅度的变化不应该太大，而直接学习 $D_\theta$ 变化会很大。作者考虑用网络 $F_\theta$ 添加预处理步骤和后处理步骤来代表 $D_\theta$ ：
$D_\theta(\mathbf x;\sigma)=c_{skip}(\sigma) \mathbf x + c_{out}(\sigma) F_\theta(c_{in}(\sigma)\mathbf x; c_{noise}(\sigma))$