1 想法概述

从一张充满噪声的图中不断denoise，最终得到一张clear的图片。为了确定当前图片中噪声占比的大小，同时输入原图片和参数 $t$ ，参数 $t$ 用于标识一张图片中的噪声占比含量。

显然迭代第1次时图片的噪声含量和迭代第999次是不同的，因此需要输入这种信息t来进行标识。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-7CjpzYoX-1692290104065)(【Diffusion】李宏毅2023机器学习Diffusion笔记/image-20230814190229199.png)]

2 实际过程

阶段1 Add Noise

首先，准备好一组确定的参数 $\bar{\alpha_1},\bar{\alpha_2},\dots,\bar{\alpha_T}$ ，用以表示时间步 $t$ 下样本和噪声的混合情况， $t$ 越大，噪声占比越高。然后重复以下过程直至收敛：

采样
1. 从真实样本集中取出一个样本 $x_0$
2. 从 $[1, T]$ 的整数中采样出 $t$ 来表示时间步
3. 从标准正态分布中采样出噪声 $\epsilon$
构造带噪声样本 $x=\sqrt{\bar{\alpha_t}}x_0+ \sqrt{1-\bar{\alpha_t}} \epsilon$
将构造样本 $x$ 和时间步 $t$ 一同输入噪声预测器 $\epsilon_\theta()$ ，得到预测噪声 $\epsilon_\theta(x,t)$ 。
目标函数为 $\epsilon_\theta(x,t)$ 和采样出的真实噪声 $\epsilon$ 的 $MSE$

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-D7mqKw6q-1692290104066)(【Diffusion】李宏毅2023机器学习Diffusion笔记/image-20230814194524251.png)]

阶段2 Denoise

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-21zUXHgj-1692290104066)(【Diffusion】李宏毅2023机器学习Diffusion笔记/image-20230814201251917.png)]

3 数学原理

极大似然估计近似等价于最小化KL散度(表示两个分布的相似性)：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-S3lKC0VE-1692290104066)(【Diffusion】李宏毅2023机器学习Diffusion笔记/image-20230817221857642.png)]

对任何分布 $q (z ∣ x)$ ，有：

$\log P_\theta(x) \ge \int_{z}q(z|x)\log \frac{P(z,x)}{q(z|x)}dz = E_{q(z|x)}[\log \frac{P(z,x)}{q(z|x)}]$

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-EMBIDtfT-1692290104067)(【Diffusion】李宏毅2023机器学习Diffusion笔记/image-20230817222057765.png)]

所以对DDPM来说：

$\log P_\theta(x) \ge E_{q(x_1:x_T|x_0)}[\log \frac{P(x_0:x_T)}{q(x_1:x_T|x_0)}]$

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-FqgMWPQQ-1692290104067)(【Diffusion】李宏毅2023机器学习Diffusion笔记/image-20230817222642961.png)]

结合正态分布的可加性：做N次独立的正态sampling，可能通过一次的sampling就能解决。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-oyzChf3t-1692290104067)(【Diffusion】李宏毅2023机器学习Diffusion笔记/image-20230817225900399.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-w4gtTsG6-1692290104067)(【Diffusion】李宏毅2023机器学习Diffusion笔记/image-20230817231727538.png)]

对式3不断变换，最后可得（这个式子的过程可以不用看，也并不复杂，但是麻烦，理解结论就好）：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-SY9fKeIh-1692290104068)(【Diffusion】李宏毅2023机器学习Diffusion笔记/image-20230817232929967.png)]

然后再经过一系列的运算求出来 $q(x_{t-1|x_t,x_0})$ 依然是高斯分布，表示首尾 $x_0,x_T$ 固定住，产生 $x_{t-1}$ 的概率，是一个和network无关的分布。而 $P(x_{t-1}|x_t)$ 是由网络决定的，我们不考虑它的variance，只考虑mean。如果我们希望这两个分布越接近越好，那就想办法让两个分布的mean越接近越好。
在这里插入图片描述

化简：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-B0OFKfc5-1692290104068)(【Diffusion】李宏毅2023机器学习Diffusion笔记/image-20230817233152037.png)]

实际需要预测出的部分：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-OpE6Y02O-1692290104069)(【Diffusion】李宏毅2023机器学习Diffusion笔记/image-20230817234731710.png)]

4 为什么推理时要额外加入noise

李宏毅老师的一点Guess，生成式任务，概率最大的结果，未必就是最好的结果。人写的文章用词可能更suprising。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-BxAIdBaQ-1692290104069)(【Diffusion】李宏毅2023机器学习Diffusion笔记/image-20230817235534101.png)]

5 一些不知道对不对的Summary

希望近似 $P_{data}(x)$ 和 $P_\theta(x)$ 的分布，而对给定的 $x$ ，使 $P_\theta(x)$ 最大化可以转换为使其下界最大化，从而转换为使 $E_{q(x_1:x_T|x_0)}[\log \frac{P(x_0:x_T)}{q(x_1:x_T|x_0)}]$ 最大化。
在假设 $x_t=\sqrt{\beta_t}x_{t-1}+\sqrt{1-\beta_t}z_{t-1}$ 的前提下，可以推出 $x_t=\sqrt{\bar{\alpha_t}}x_{0}+\sqrt{1-\bar{\alpha_t}}z$
从而可以进一步化简 $E_{q(x_1:x_T|x_0)}[\log \frac{P(x_0:x_T)}{q(x_1:x_T|x_0)}]$ 为三项，其余两项与Network无关，可只考虑中间一项，该项由 $q(x_{t-1|x_t,x_0})$ 和 $P(x_{t-1}|x_t)$ 的KL散度之和组成，
$q(x_{t-1}|x_t,x_0)$ 表示首尾 $x_0,x_T$ 固定住产生 $x_{t-1}$ 的概率，可求得是一个和network无关的高斯分布，均值可以表示为：

而 $P(x_{t-1}|x_t)$ 是由网络决定的，我们不考虑它的variance，只考虑mean。
如果我们希望这两个分布越接近越好，那就想办法让两个分布的mean越接近越好。而上式中，仅有 $\epsilon$ 需要确定，因此我们希望网络能够预测这个值，从而完成推理。预测出这一项 $\epsilon$ 的过程，可以看作为从 $x_0$ 和 $x_t$ 预测出 $x_{t-1}$ 的过程。