HiPA: 通过高频增强自适应实现一步文本到图像扩散模型
paper是NUS发布在Arxiv 2023的工作
paper title:HiPA: Enabling One-Step Text-to-Image Diffusion Models via High-Frequency-Promoting Adaptation
Code:等待开源
Abstract
扩散模型已彻底改变了文本到图像的生成,但是它们的现实应用程序受到数百个扩散步骤所需的大量时间的阻碍。尽管已经提出了渐进式蒸馏以加快扩散采样的加快,但它仍然是一步生成的短缺,因此需要训练多个学生模型,这是高度参数性的遗产性且耗时。为了克服这些局限性,我们引入了高频增强适应性(HIPA),这是一种启用访问文本到图像扩散的参数有效方法。 HIPA基于一个洞察,即高频信息至关重要,但在一步扩散中高度缺乏,重点是训练一步,低秩的适配器,以特别增强了高级扩散模型的代表性不足的高频能力。博学的适配器将这些扩散模型赋予了仅在一个步骤中生成高质量图像的能力。与渐进式蒸馏相比,HIPA在一步文生图(37.3→23.8 in MS-COCO 2017中的FID-5K)和28.6倍的训练速度(108.8→3.8 A100 GPU days)中取得了更好的性能(37.3→23.8) 0.04%的训练参数(77.4亿→330万)。我们还展示了HIPA在文本引导的图像编辑,修复和超分辨率任务中的有效性,在此,我们的改编模型仅在一个扩散步骤中始终提供高质量的输出。
1. Introduction
文本到图像生成[2,32,34,35],旨在通过文本描述中综合图像,随着扩散模型的出现[9,16,42,48]进行了重大转换。这些模型以其多步降解过程而闻名,为生成的图像的质量树立了新的基准,并以增加的忠诚度和细节为标志[4]。但是,多个扩散步骤的必要性(每个扩散步骤都经过精心完善图像)导致了很长的生成时间。这减少了实时应用程序文本到图像扩散模型的实用性,对用户体验产生了不利影响[13,20,36,43]。
为了减轻此问题,渐进式蒸馏(PD)[3,21,28,36]提议将T步长教师扩散模型蒸馏成新的T /2步学生模型,并重复此过程,直到较少步骤扩散模型实现了。尽管可以在2-8个步骤上进行更有效的扩散,但PD策略通常需要多次进行蒸馏以训练多个学生模型,从而导致高度缓慢且参数较重的过程。尽管一致性蒸馏[41,43]可以加速未引导的扩散模型,但其在文本对图像生成中的有效性仍未得到验证。作为扩展,潜在的一致性蒸馏[26]有助于2-4步文本对图像生成,但在一步生成中仍然缺乏。
在这项工作中,我们专注于一步生成,用于简化文本对图像扩散模型的推理效率。我们没有通过训练具有广泛参数的多个学生模型来进行缓慢的渐进式蒸馏,而是提出了一种参数高效的高频适应(HIPA)方法,以将现有的高级多步模型加速到一步扩散。通过训练低秩HIPA适配器来实现这种加速度,与PD相比,其参数较少。虽然低秩适应[17]已用于定制特定任务的扩散模型[15,39],但如何训练适配器以获得有效的一步扩散加速度仍然是尚未解决的挑战。
为了弄清楚这一挑战,我们深入研究了文本到图像扩散模型的多步生成过程,旨在与其多步中的多个步骤相比,旨在发现哪些信息一步扩散缺乏。如图2所示,我们确定了文本生成过程中的关键细微差别 - 扩散始于生成低频信息,然后随着扩散步骤的增加而产生高频细节。值得注意的是,一步扩散通常难以产生丰富的高频细节,但是,这对于现实的图像产生至关重要。现有的加速技术,例如渐进式蒸馏[21,28]和一致性模型[41,43],忽略了这一关键方面,从而牺牲了一步扩散的高频细节生成,并导致图像质量有限。
鉴于这些发现,HIPA将低级适配器训练以特异性增强一步扩散中的高频细节。 HIPA的中心是一种新的扩散适应损失,包括空间感知损失和高频促进损失。空间感知损失确保了生成的图像中的结构相干性,而高频促进了损失,利用傅立叶变换和边缘检测,专门设计用于增强微妙但至关重要的高频细节。这种双重损失策略有效地保留了详细的纹理和边缘,这些纹理和边缘经常在一步扩散中被忽略,从而促进了快速生成,而不会显着损害图像质量。
我们的方法通过一步文本到图像生成的广泛实验进行了严格的验证,这表明HIPA在视觉保真度和训练效率方面都优于现有的一步方法,同时需要更少的培训参数。如图1和表3所示,与进行性蒸馏相比,HIPA显着提高了一步文本对图的性能(37.3至23.8在MS-Coco 2017中的FID-5K中),将培训加速28.6倍(108.8到 3.8 A100 GPU天),并大大减少了培训参数需求(77.4亿至330万)。为了展示HIPA的多功能性,我们将其应用程序扩展到文本引导的图像编辑,修复和超分辨率任务,在此我们将扩散步骤的数量减少到一个步骤。有希望的结果表明,HIPA在各种现实世界图像修改和增强应用中有效和实际使用的巨大潜力。
图1。在MSCOCO 2017上,一步文本到图像扩散的性能[22]。我们观察到,我们的HIPA在FID方面表现出色,同时需要更少的计算时间和较少的培训参数。
2. Related Work
文本到图像生成。图像生成[1,8,24,37,44,50,52]通过包括生成对抗网络在内的范式发展[6,12,18],自回归模型[19,30],尤其是扩散模型[9,16 ]。在文本到图像生成的领域中,扩散模型已成为具有文本指导,高保真图像综合的强大工具。诸如DALL-E [4、30、31],Imagen [35]和稳定扩散[32]之类的变革性模型表现出显着的零发性能力。但是,扩散模型的发展也导致了平衡产生效率和有效性的挑战,因为它们通常需要许多扩散步骤来生成高质量的图像。例如,即使使用诸如DDIM [40]和DPM [25]之类的高级采样器,稳定的扩散[32]通常也需要超过15-50个步骤来生成高质量的图像。
文本到图像扩散的加速。加速扩散模型的策略分为两个主要类别。最初,研究人员提出了快速的事后样本[11,25,40,47,51],以将推理步骤的数量降低到15至50之间。但是,推理时的这些增强功能还不够,这促使了新的模型范式适应[34,46]。一个进步是进行性蒸馏[3,21,28,36],它将预训练的扩散模型提取到不到10个步骤[32]。尽管提供了2-8步扩散的改进,但这些方法通常需要重复蒸馏多个学生模型,从而导致缓慢而较重的参数过程。尽管一致性蒸馏[41,43]和平衡模型[13]为非引导扩散模型提供了加速,但它们对文本对图像生成的适用性尚未得到证实。作为扩展,潜在的一致性蒸馏[26]适用于2-4步文本对图像生成,但它在一步生成中仍然受到限制。 Instaflow [23]通过训练整个稳定的扩散通过2阶段的回流和2阶段蒸馏,可以实现一步的文本对图像生成,这需要超过199个A100 GPU天。与这些方法不同的是,我们的HIPA方法仅通过训练低级HIPA适配器的加速度(约3.8 A100 GPU天)来更具参数,从而避免了渐进式蒸馏所需的大量时间和计算资源。通过故意促进高频产生能力,我们的HIPA有效地实现了一步文本对图像扩散模型。
低秩适配(LoRA)[17] 是一种参数高效的扩散模型定制策略[15, 39]。给定一个权重矩阵 W ∈ R d × d W \in \mathbb{R}^{d \times d} W∈Rd×d,LoRA 通过引入两个低秩适配器进行调整: W ′ = W + U V T W^{\prime}=W+U V^T W′=W+UVT,其中 U ∈ R d × k U \in \mathbb{R}^{d \times k} U∈Rd×k, V ∈ R d × k V \in \mathbb{R}^{d \times k} V∈Rd×k,且 k ≪ d k \ll d k≪d。乘积 U V T U V^T UVT 表示对冻结权重矩阵的低秩更新,将适配限制在一个子空间内,并显著减少涉及的参数数量。这使得仅需更新 O ( k d ) O(k d) O(kd) 个参数,相较于原始的 O ( d 2 ) O\left(d^2\right) O(d2) 大幅减少,使得模型适配更加易于管理且资源高效。
3. Preliminary Studies
3.1. One-step diffusion lacks high-frequency details
为了推进一步的文本对图像扩散,我们首先分析稳定扩散(SD)[32],旨在剖析在不同扩散步骤下产生的图像的细微差别。如图2(第一行)所示,我们确定了文本对图像生成的基本特征:一步SD生成的图像显然是模糊的,并且随着扩散步骤的增加,它们的质量显着改善。为了深入研究这种现象,我们利用离散的傅立叶变换[14]来区分图像中的高频和低频信息,然后利用逆傅立叶变换[14]来重建图像以进行可视化。图2(第二行)表明,生成过程最初着重于生成基础元素和图像的基础场景,例如一般的配色方案和亮度。有趣的是,随着扩散步骤的数量增加,初始基础元素保持相对稳定。同时,生成的图像逐渐结合了更多复杂的细节,包括对象边缘,复杂的纹理和独特的模式(参见图2,最后一行)。
图2。基于稳定的扩散[32]和DPM采样器[25],具有不同扩散步骤的文本对图像生成的插图。最初,简单的低频组件形成,然后是复杂的高频细节,以增加现实主义。值得注意的是,一步扩散图像缺乏复杂的高频组件,从而明显降低了真实感。
为了证实这一观察结果,我们使用功率光谱密度分析[5]来阐明这种进展的复杂性。如图3所示,存在一个明显的模式,即扩散模型首先提取低频信息(即光谱的中央区域),随后用高频细节(即光谱的外围区域)丰富了图像。这进一步证实了我们的观察。总而言之,图2-3强调了一步生成的图像中高频组件的明显不足,这在一个步骤中解释了SD的劣势性能。
图3。通过使用不同的扩散步骤(DPM采样器)稳定扩散对生成图像的功率光谱密度分析。
3.2. High frequency matters for one-step diffusion
为了深入研究高频信息在几步生成中的关键作用,我们进行了一个实验,涉及高频和低频组件的混合,然后可视化重建的图像。具体来说,我们使用离散的傅立叶变换来提取从1到15步生成的图像中提取高和低频组件。然后,我们从1和15步图像的高频组件与1、2、3、5和10步图像的低频组件进行了杂交高频组件。之后,我们使用逆傅里叶变换来可视化每种组合产生的图像。
图4。高频组件在增强单步文本对图像扩散的图像清晰度方面的影响。将15步图像中的高频组件与较少步骤图像的低频组件结合起来,在反傅立叶变换后会导致更清晰的图像,而使用一步高频组件则没有明确的增强性。
如图4所示,我们发现将15步图像中的高频组件与较少步骤图像的低频组件结合在一起,可以产生明显增强的清晰度和质量的图像。相反,当高频组件来自1步图像时,无论低频源如何,所得图像继续表现出它们的内在模糊性。该观察结果至关重要,因为它不仅强调了高频成分在文本到图像扩散中的关键作用,而且还表明,增强具有优质高频生成的一步扩散模型明显地提高了一步的质量。
3.3. Promoting high-frequency generation boosts one-step diffusion models
在上述观察结果的基础上,我们假设增强高频生成可以促进文本到图像扩散模型。为了验证这一点,我们评估了高频促进对一步生成SD的低秩适应的影响。具体而言,我们通过将适应的SD的一步生成的图像与原始SD的单步生成的图像对齐,但具有更大的扩散步骤(例如10或15 dpm步骤)。我们通过几种适应损失:包括L2空间损失,通过低频促进增强的空间损失,以及随着高频促进增强的空间损失增强,我们可以通过几种适应性损失进行对齐。在这里,通过使用L2损失对齐,一步和多步中对应物之间的傅立叶构造的高频图像来实现高频促销。低频促销以类似的方式实施。
如表1所示,结果揭示了一个显着的趋势。与SD基线相比,仅使用L2空间损失可以取得明显的改善。但是,当这种损失通过低频促进增强时,会产生适得其反的影响,导致绩效下降。这表明优先考虑低频信息实际上可能会妨碍一步扩散。至关重要的是,将高频促进与L2空间损失一起掺入最大的增长,从而实现了优越的现实主义(低FID),较高的多样性(较高的IS)以及更好的文本保真度(较高的剪辑得分(较高的剪辑得分))在Onestep生成的图像中。这些结果令人难以置信地验证了我们的见解,即在扩散模型适应中促进高频能力会显着增强一步文本图像生成的性能。
4. Our Approach
鉴于上述见解,我们提出了一种新的参数效率策略,高频宣传适应性(HIPA),以启用一步文本对图像扩散模型。
整体方案。我们的方法不同于渐进式蒸馏(Progressive Distillation)[28] 和 InstaFlow [23] 等方法,后者主要针对整个预训练扩散模型进行微调。相反,我们的方法旨在训练一个低秩 HiPA 适配器,以增强扩散模型的一步生成能力。如图 5 所示,HiPA 通过对齐单步生成的图像与原始冻结模型在多个步(例如 15 DPM 步)下生成的图像来实现这一目标。为了专门增强高频能力,HiPA 采用复合适配损失。该损失结合了空间感知损失与高频增强损失,共同优化模型的一步生成,以提高图像的保真度和高频细节:
L adaptation = L spatial + L high-freq L_{\text{adaptation}} = L_{\text{spatial}} + L_{\text{high-freq}} Ladaptation=Lspatial+Lhigh-freq
(1)
空间感知损失 L spatial L_{\text{spatial}} Lspatial。我们基于深度图像结构与纹理相似度(DISTS)度量[10] 计算空间适配损失:
L spatial = L DISTS ( I generated 1-step , I generated multi-step ) L_{\text{spatial}} = L_{\text{DISTS}} \left( I_{\text{generated}}^{\text{1-step}}, I_{\text{generated}}^{\text{multi-step}} \right) Lspatial=LDISTS(Igenerated1-step,Igeneratedmulti-step)
(2)
其中, I generated 1-step I_{\text{generated}}^{\text{1-step}} Igenerated1-step 和 I generated multi-step I_{\text{generated}}^{\text{multi-step}} Igeneratedmulti-step 分别表示 HiPA 适配模型的一步生成图像和原始扩散模型多步生成的图像。DISTS 超越了像素级别的差异,能够捕捉图像的结构和纹理特征上的感知差异。实验结果表明,在我们的设定中,该方法优于 L2 和 LPIPS [49] 度量。
图5。我们参数高效启动适应(HIPA)方法的例证。
高频增强损失 L high-freq L_{\text{high-freq}} Lhigh-freq。为了有效增强高频能力,我们采用两种互补策略来提取高频信息:傅里叶变换和边缘检测。如图 6 所示,这两种方法相辅相成,能够突出高频细节的不同方面。
对于傅里叶策略,我们首先对生成图像 I generated I_{\text{generated}} Igenerated 应用离散傅里叶变换(DFT)[14],将其从空间域转换到频率域。然后,我们通过高通滤波提取高频分量,并应用逆傅里叶变换(IFT)[14] 以重建高频图像 I freq I_{\text{freq}} Ifreq。该过程可描述如下:
I freq = IFT ( DFT ( I generated ) ⊙ M high ( u , v ) ) , I_{\text{freq}} = \text{IFT} \left( \text{DFT}(I_{\text{generated}}) \odot M_{\text{high}}(u,v) \right), Ifreq=IFT(DFT(Igenerated)⊙Mhigh(u,v)),
(3)
其中, M high ( u , v ) M_{\text{high}}(u,v) Mhigh(u,v) 是频率域中的高通滤波器。
与此同时,我们应用 Sobel 算子 [7] 来提取图像的边缘信息。该算子通过预定义的水平核 G x G_x Gx 和垂直核 G y G_y Gy 对图像 I I I 进行卷积,从而计算图像梯度 ∇ I \nabla I ∇I,突出显著的强度变化。检测到的边缘图像 I edge I_{\text{edge}} Iedge 计算如下:
I edge = ( I generated ∗ G x ) 2 + ( I generated ∗ G y ) 2 , I_{\text{edge}} = \sqrt{(I_{\text{generated}} * G_x)^2 + (I_{\text{generated}} * G_y)^2}, Iedge=(Igenerated∗Gx)2+(Igenerated∗Gy)2,
(4)
其中 * 表示卷积操作,Sobel 核的定义如下:
G x = [ − 1 0 1 − 2 0 2 − 1 0 1 ] , G y = [ − 1 − 2 − 1 0 0 0 1 2 1 ] G_x = \begin{bmatrix} -1 & 0 & 1 \\ -2 & 0 & 2 \\ -1 & 0 & 1 \end{bmatrix}, \quad G_y = \begin{bmatrix} -1 & -2 & -1 \\ 0 & 0 & 0 \\ 1 & 2 & 1 \end{bmatrix} Gx= −1−2−1000121 ,Gy= −101−202−101
基于提取的高频信息,我们设计了高频增强损失,通过对齐一步生成图像与多步生成图像的高频细节来优化模型:
L high-freq = L DISTS ( I freq 1-step , I freq multi-step ) + L DISTS ( I edge 1-step , I edge multi-step ) . L_{\text{high-freq}} = L_{\text{DISTS}} \left( I_{\text{freq}}^{\text{1-step}}, I_{\text{freq}}^{\text{multi-step}} \right) + L_{\text{DISTS}} \left( I_{\text{edge}}^{\text{1-step}}, I_{\text{edge}}^{\text{multi-step}} \right). Lhigh-freq=LDISTS(Ifreq1-step,Ifreqmulti-step)+LDISTS(Iedge1-step,Iedgemulti-step).
(5)
通过这种方式,训练得到的 HiPA 适配器使得一步生成模型能够模拟其多步生成对照模型的高质量表现,特别是在生成对图像真实感和质量至关重要的高频细节方面。
图6。提取的高频信息的插图。