读:《An Overview of Diffusion Models: Applications,Guided Generation, Statistical Rates and Optimization》 简单说明
这篇文章也是关于 Diffusion 模型的综述,但是这一篇讲的显然不如 2022出的这篇综述 [2209.00796] Diffusion Models: A Comprehensive Survey of Methods and Applications (arxiv.org)
但是这篇在讲应用的时候带了例子可能还是不错的。
文章我的一个有理解部分分享:
2.2 条件扩散模型
这里我主要理解:就是给扩散的数据进行一个标签标记,但是数据在前向后向的过程是要被打乱的,但是条件 y 是不变的
3.1 视觉和音频生成
比较白话的说明了 Diffusion Model 的一些在图像、音频方面的应用,这里就放3.1的一个翻译了,感觉 第三个部分这里讲的还行吧。
扩散模型在图像和音频生成任务中实现了最先进的性能 [7–22],并且是图像和音频合成系统(例如 DALL-E [66]、稳定扩散 [101] 和 Diffwave [11])的基本构建块之一。 扩散模型的性能以高保真样本生成为评估标准,并允许使用多种指导来控制生成。指导下生成的最简单示例是生成某些类别的图像,例如猫或狗。此类分类信息被视为条件信号并输入到条件扩散模型中。更详细地说,我们使用由样本对 (xi , yi) 组成的标记数据集训练条件扩散模型,其中 yi 是图像 xi 的标签。训练是使用数据集估计条件得分函数,对 x 和 y 之间的对应关系进行建模。通过这种方式,条件扩散模型正在学习条件分布 P(x = 图像 | y = 给定标签) 并允许从分布中进行采样。 6在文本到图像合成系统中,条件信息是输入文本提示,可以是包含对象或更抽象的要求(例如美学质量)的句子。为了生成与提示一致的图像,条件扩散模型会使用大量带注释的数据集进行训练,该数据集包含表示为 (xi, yi) 的图像和文本摘要对。文本 yi 将被转换为词嵌入并作为条件扩散模型的输入。 与某些类别的图像生成类似,用于文本到图像合成的条件扩散模型学习条件分布 P(x = 图像 | y = 文本提示) 并允许从中采样。在更复杂的合成系统中,会实施一些微调步骤,以进一步实现抽象提示条件并提高生成图像的质量。例如,[78] 将离散化的后向过程 (2) 重新表述为有限时域马尔可夫决策过程 (MDP)。状态空间表示图像,条件得分函数被视为策略,奖励函数定义为测量图像与其所需文本提示的对齐程度。因此,生成与提示对齐的图像相当于通过寻找最佳策略来优化奖励。[78] 提出了一种基于策略梯度的方法来微调预训练的扩散模型。在图 2 中,我们展示了使用 [78] 中的方法从左到右对条件扩散模型进行微调的逐步改进。条件扩散模型在图像编辑和恢复 [102–109] 以及音频增强 [110–113] 中也是一个强大的工具;另请参阅综述 [22, 56] 及其中的参考文献。为了展示这个想法,我们以图像修复任务为例。修复的目标是预测图像中缺失的像素。我们将图像的已知区域表示为 y,将原始完整图像表示为 x。然后,修复归结为从条件分布 P(x = 完整图像 | y = 图像的已知区域) 中采样 x。在所有这些应用中,条件扩散模型在建模条件分布方面表现出极高的表现力和有效性 [10, 107]。