图像生成地表最强！Playground v2.5技术报告解读重磅来袭！超越SD、DALL·E 3和 Midjourney

文章链接：https://arxiv.org/pdf/2402.17245
模型地址： https://huggingface.co/playgroundai/playground-v2.5-1024px-aesthetic

本文分享了在文本到图像生成模型中实现SOTA美学质量的三个见解。专注于模型改进的三个关键方面：增强色彩和对比度，改善跨多种长宽比的生成，以及改善中心人物的细节。

首先，深入探讨了在训练扩散模型中noise schedule的重要性，展示了它对现实感和视觉保真度的深远影响。其次，解决了图像生成中适应各种长宽比的挑战，强调准备一个平衡的分桶数据集的重要性。研究了模型输出与人类偏好对齐的关键作用，确保生成的图像与人类感知期望产生共鸣。

通过广泛的分析和实验，Playground v2.5 在各种条件和长宽比下展示了最先进的美学质量表现，优于广泛使用的开源模型如 SDXL和 Playground v2，以及封闭源商业系统，如 DALL·E 3和 Midjourney v5.2。我们的模型是开源的，希望 Playground v2.5 的开发为志向提升扩散式图像生成模型美学质量的研究人员提供宝贵的指导。

介绍

自从通过ImageNet取得更好的图像建模性能以来，基于扩散的生成模型已经取得了巨大进展，与先前主导的生成对抗网络（GAN）框架相比，性能有所提高。开源模型如SDXL在潜在扩散模型（LDM）的基础上进行了扩展，通过扩大文本到图像的预训练数据集和潜在UNet架构来实现。

另一方面，PixArt-alpha探索了扩散Transformer（DiT）作为潜在骨干，表现出更好的训练效率和图像质量。Playground v2是最近开发的一个开源模型，专注于训练配方和美学质量，与SDXL相比，实现了2.5倍的用户偏好。

Playground v2于2023年12月开源，很高兴看到开源和研究社区接受并引用了我们的工作。值得注意的是，Playground v2仅在过去一个月中就在HuggingFace上累积了超过135,000次下载，并且我们的工作已被最新的Stable Diffusion等最先进的图像模型的论文引用。

继Playground v2之后，我们选择不改变这项工作的基础模型架构；相反，专注于分析和改进我们的训练配方，并将模型的美学质量推向一个新的水平。

我们专注于图像模型的三个关键问题：增强色彩和对比度、改善跨多个长宽比的生成和改善中心人物的细节。

我们旨在完善模型的能力，以产生更加逼真和视觉吸引力的输出。为了评估我们改进的效果，进行了广泛的用户研究，并将我们的模型与先前的最先进模型进行了基准测试。还提出了一个新的自动评估基准MJHQ-30K，以评估模型在10个独特类别上的表现。

在评估我们模型的输出的人类偏好时，很高兴地报告说，Playground v2.5超越了最先进的模型，包括Midjourney 5.2，DALL·E 3，Playground v2，PIXART-α和SDXL（见下图10）。

Playground v2.5努力超越其前身的性能，并确立自己作为文本到图像生成模型领域的领先竞争者。在HuggingFace上以易于研究团队使用的许可证发布了Playground v2.5的权重。我们还将提供扩展，以在A1111和ComfyUI等两个流行的社区工具中使用我们的模型。鉴于我们从研究和开源社区获得了多少利益，将我们在Playground v2.5上的多个方面的工作提供给社区使用是很重要的。

方法

增强色彩和对比度

自 SD 1.5 发布以来，潜在扩散模型一直在生成具有高色彩对比度和丰富色彩范围的图像方面遇到困难。这是一个已知的限制。例如，SDXL 无法生成纯黑色图像或纯白色图像，并且无法将主题放置在纯色背景上（参见下图2（a））。

这个问题源于扩散过程的噪声调度，正如 [21] 所指出的那样。即使在离散噪声水平达到最大值时，Stable Diffusion的信噪比仍然过高。有几项工作试图修复这个缺陷。Guttenberg 和 CrossLabs提出了偏移噪声。林等人 [21] 提出了Zero Terminal SNR，以确保最后的去噪步骤是纯高斯噪声。SDXL在训练的最后阶段采用了添加偏移噪声的策略，Playground v2 也是如此。然而，如上图2（b）所示，仍然注意到 SDXL 表现出了淡化的颜色和对比度。

对于Playground v2.5，旨在显著改善这个问题。我们希望在图像中实现鲜明的色彩和对比度，并能够生成纯色背景。为此，采取了一种更加原则性的方法，并使用了Karras等人提出的EDM框架从头开始训练我们的模型。

EDM带来了两个明显的优势：
(1) 像Zero Terminal SNR一样，EDM noise schedule在最终“时间步长”上表现出接近零的信噪比。这消除了对偏移噪声的需求，并修复了柔和的颜色。
(2) EDM采用了一种基于第一性原理的方法来设计训练和采样过程，以及对UNet的预处理。这使EDM的作者能够做出明确的设计选择，从而实现更好的图像质量和更快的模型收敛。

我们还受到了Hoogeboom等人的启发，当在高分辨率图像上进行训练时，将noise schedule偏向整体更嘈杂的方向。

在下图3中，展示了Playground v2.5和Playground v2之间的定性比较，后者使用了偏移噪声和DDPM的noise schedule。可以看到，在第一列中，Playground v2.5能够生成具有增强色彩范围的生动肖像，并且展现出更好的提示图像对齐，这使得v2.5能够生成纯黑色背景。

跨多个长宽比的生成

在文本到图像模型的实际应用中，生成各种不同长宽比的图像的能力是一个重要特征。然而，这些模型的常见预训练程序在早期阶段通常只训练在正方形图像上，采用随机或中心裁剪。这种技术是从在ImageNet上训练的条件生成模型的标准做法。

从理论上讲，这不应该构成问题。像SDXL这样主要由卷积层组成的扩散模型 - 模仿卷积神经网络（CNN） - 在推理时应该能够处理任何输入分辨率，即使它没有在特定分辨率上进行训练。这是由于CNN的过渡不变性特性。不幸的是，在实践中，当只在正方形图像上进行训练时，扩散模型在其他长宽比上的泛化能力并不好，正如NovelAI所指出的那样。

为了解决这一挑战，NovelAI提出了分桶采样的方法，其中具有相似长宽比的图像在同一次前向传递中被分桶在一起。SDXL采用了这种分桶策略，并且还添加了额外的条件来指定源图像和目标图像的大小。SDXL的条件策略迫使模型在不同的长宽比下学习将图像的主题放置在中心。然而，由于SDXL数据集中长宽比桶的分布不均衡，即数据集中的大多数图像都是正方形，SDXL还学习了其条件中某些长宽比的偏差。此外，以非正方形长宽比生成的图像通常显示出比正方形图像低得多的质量。

在Playground v2.5中，我们的一个明确目标是使模型能够在多个长宽比下可靠地生成高质量的图像，因为我们从用户那里了解到，这对于高质量的生产级模型是一个关键因素。虽然我们采用了与SDXL类似的分桶策略，但我们精心设计了数据pipeline，以确保在各种长宽比下采样的分桶策略更加平衡。我们的策略避免了灾难性遗忘，并帮助模型不偏向于某个或另一个长宽比。

下图4和图5分别展示了SDXL和Playground v2.5在纵向和横向长宽比上的定性比较。我们的模型能够在各种长宽比下生成高质量的图像，而不会出现生成多个对象或错误构图的问题。

人类偏好对齐

人类对于人体特征如手部、面部和躯干的视觉错误尤为敏感。即使一张图像具有完美的光照、构图和风格，如果人的面部变形或身体结构扭曲，很可能会被评为低质量。

生成模型，无论是语言还是图像，都容易产生幻觉。在图像模型中，这可能表现为人体特征的变形。产生幻觉的原因有多种，但一个明显的解释是训练目标不一致：生成模型的训练目标是最大化数据的对数似然，而不是最大化人类偏好。

在LLMs中，一种常见的将预训练生成模型与人类偏好对齐的策略称为监督微调，或SFT。简而言之，SFT使用一个小但非常高质量的数据集对预训练的基础模型进行微调。这种简单的技术通常优于RLHF等更复杂的方法。然而，如何从不同来源最佳地策划SFT对齐数据集，以最大化在下游任务上的性能，仍然是一个正在进行中的研究问题。

在Playground v2.5中的一个目标是减少人体特征的视觉错误的可能性，与Midjourney等封闭源模型相比，这是开源扩散模型的普遍问题。Emu为文本到图像生成模型引入了一种类似于SFT的对齐策略。受Emu启发，我们开发了一个系统，通过用户评级自动策划高质量数据集。然后，我们采用迭代的、人在环的训练方法来选择最佳的数据集候选者。通过经验评估监控训练进展，通过查看从固定提示集生成的图像网格来比较我们对齐的模型，类似于 [33]。

我们的新颖对齐策略使在至少四个重要的以人为中心的类别上胜过了SDXL。

选择专注于以下几个类别，基于我们产品的使用模式和用户反馈：

面部细节、清晰度和生动性
眼睛形状和凝视
头发质地
整体光照、颜色、饱和度和景深

在下图6中，展示了使用Playground v2.5生成的图像与使用SDXL生成的图像之间细节差异的一些示例。

在下图7中，将我们的模型与其他最先进的方法进行了比较，生成了以人为中心的图像。

评估

用户研究界面

由于最终构建的模型将被数十万用户使用，因此了解他们对模型输出的偏好非常重要。为此，在我们的产品内部进行用户研究（见下图8）。我们认为这是收集偏好度量的最佳环境，并且提供了对模型是否实际上为最终用户提供了有价值的东西进行最严格的测试。

对于给定的用户研究，选择一组固定的提示和从两个模型中采样的图像。然后，我们向用户展示一对图像和相应的提示（但不显示哪个图像对应哪个模型），并要求他们根据某种属性，如审美偏好，选择最佳图像。由于单个用户的评分容易受到偏见，我们向至少7个不同的用户展示每对图像。为了进一步减少偏见，只有在一个给定的模型的输出至少被2票以上的优势所偏好时，图像对才被视为该模型的“胜利”。1票的优势被视为平局。最后，在每个用户研究中涉及数千名独特用户。本报告提及的所有用户研究都通过此界面进行。

我们进行了评估以衡量整体审美偏好，以及在Playground v2.5中旨在改进的特定领域，即跨多个长宽比的生成和人类偏好对齐。

对其他最先进模型的整体审美偏好比较

我们使用一个名为Internal-1K的提示集来比较Playground v2.5与其他最先进的模型。Internal-1K是从Playground.com上真实用户提示中收集的，因此代表了真实用户的提示风格。向数千名用户展示了图像对，特别关注本研究中的审美偏好。这与我们之前发布的Playground v2的研究设置相同。作为参考，之前的研究表明，由Playground v2生成的图像比由SDXL生成的图像受欢迎的比例是2.5倍。我们的目标是超越这一点，对于Playground v2.5我们成功了：v2.5比SDXL受欢迎的比例是4.8倍。

下图10展示了我们与各种公开可用的文本到图像模型的结果。总体而言，Playground v2.5明显优于当前的最先进的开源模型SDXL和PIXART-α，以及Playground v2。由于Playground v2.5与SDXL之间的性能差异如此之大，我们还测试了针对最先进的闭源模型，如DALL·E 3和Midjourney 5.2，结果发现Playground v2.5在美学质量方面仍然优于这些模型。

跨多个长宽比的生成评估

使用Internal-1K提示集报告了用户对常用长宽比的偏好研究指标。为每个长宽比进行了单独的用户研究，范围从9:16到16:9。对于给定的研究，在所有图像上使用相同的长宽比条件。图11展示了我们的结果。我们的模型在所有长宽比上都大幅优于SDXL。

面向人群提示的评估

正如前面讨论中改善人类偏好对齐一样，与人相关的提示是商业文本到图像模型的重要实际用例。事实上，在我们的产品中它们非常受欢迎。为了评估我们的模型生成与人相关的图像的能力，从我们产品中真实用户提示中策划了200个高质量的与人相关的提示。我们将其称为People-200提示集。我们将发布这个提示集供社区进行基准测试。我们使用了纵向长宽比3:2进行用户研究，因为这是社区中展示人物的图像最常见的选择。将Playground v2.5与两个常用的基线模型进行了比较：SDXL和RealStock v2，RealStock v2是SDXL的一个社区微调模型，它是在一个真实的人群数据集上进行训练的。

下图12显示了Playground v2.5在性能上远远优于这两个基线模型。

自动评估基准

最后，介绍了一个新的基准，MJHQ-30K，用于自动评估模型的审美质量。该基准在一个高质量数据集上计算Fréchet Inception Distance (FID)，以评估审美质量。通过抽查FID并确保其呈现下降趋势，我们能够在不同阶段的预训练和对齐过程中快速评估进展。

从Midjourney 5.2生成的图像中策划了一个高质量数据集。该数据集涵盖了10个常见类别，每个类别有3K个样本。按照惯例，我们使用美学分数和 CLIP 分数来确保高质量的图像和高质量的文本到图像对齐。此外，特别注意确保在每个类别内图像和提示变化丰富。

我们报告了总体FID（下表1）和每个类别的FID（下图13）。所有FID指标均在分辨率1024x1024上计算。我们的结果显示，Playground v2.5在总体FID和所有类别的FID上均优于Playground v2和SDXL，特别是在人物和时尚类别中。这与用户研究的结果一致，表明人类偏好与MJHQ30K基准的FID分数之间存在相关性。

我们将此基准发布到HuggingFace上，鼓励社区在预训练和对齐过程中采用它来评估其模型的审美质量。

结论

在这项工作中，我们分享了实现文本到图像生成模型最先进审美质量的三个见解，并对Playground v2.5在各种条件和设置下与最先进模型进行了分析和实证评估。Playground v2.5表现出：

在增强图像色彩和对比度方面的卓越性能；
能够在各种长宽比下生成高质量图像；
对于生成图像的审美质量与人类偏好的对齐，尤其是对人物图像中的细节有很好的表现。

很高兴将Playground v2.5发布给公众。该模型已经在产品网站上提供给所有用户使用，并且已经在HuggingFace上开源了权重。此外，我们很快将提供Playground v2.5在A1111和ComfyUI中的扩展，这是两个流行的社区工具，用于使用扩散模型。

对于未来的工作，我们希望解决改进文本到图像对齐、增强模型的变化能力和探索新的架构等问题。

在Playground，我们的目标是构建一个统一的通用视觉系统，深度理解像素，并使所有技能水平的人能够熟练地生成和编辑像素。我们将Playground v2.5视为通向这一愿景的垫脚石，并鼓励社区与我们一起构建。

参考文献

[1]Playground v2.5: Three Insights towards Enhancing Aesthetic Quality in Text-to-Image Generation
[2]https://playground.com/
[3]https://huggingface.co/datasets/playgroundai/MJHQ-30K
[4]https://huggingface.co/playgroundai/playground-v2.5-1024px-aesthetic

更多精彩内容，请关注公众号：AI生成未来