个性化图像生成新王炸！无需微调，Meta重磅发布Imagine yourself:三大核心全面SOTA！

论文链接：https://arxiv.org/pdf/2409.13346

亮点直击

本文提出了“Imagine Yourself”，这是一种用于个性化图像生成的创新型最先进模型。该模型可以将任意参考图像作为输入进行定制化图像生成，并且不需要针对每个对象进行调整。
“Imagine Yourself”结合了新的组件，并在现有模型的基础上显示出显著改进：一种新的合成配对数据生成机制以促进图像多样性；一个具有三个文本编码器的全并行注意力机制和一个完全可训练的视觉编码器架构，以提高文本的准确性；以及一种新颖的粗到细多阶段微调方法，逐步提升视觉质量的界限。
本文提供了与最先进模型相比的全面的定性和定量评估结果。本文在人类注释的数千个测试示例中提供了黄金标准，以证明“Imagine Yourself”在所有方面的卓越性能，包括身份保留、提示对齐和视觉吸引力。

效果展示

总结速览

解决的问题

现有个性化图像生成模型需要针对每个用户进行微调，效率低且不够灵活。

提出的方案

开发“Imagine Yourself”，一个无需特定主题微调的个性化图像生成模型，所有主题共享一个模型。

应用的技术

身份保留：使用可训练的视觉编码器、零卷积初始化和 mask 视觉 embedding。
视觉质量：采用粗到细的多阶段微调方法和人类参与（HITL）。
文本对齐：引入合成配对数据生成机制，结合三个文本编码器的全并行注意力机制。

达到的效果

在身份保留、提示对齐和视觉吸引力方面显著超越现有最先进模型。
在复杂提示的文本对齐上，性能提升了27.8%。
通过数千个测试示例的人类评估，证明了模型的卓越性能。

方法

“Imagine Yourself”模型可以通过一张特定主体的面部图像，生成由文本提示引导的视觉上吸引人的个性化图像。本文的方法能够遵循复杂的提示指导，生成具有多样化头部和身体姿势、表情、风格和布局的图像。

为了突破个性化图像生成的界限，首先识别出三个关键方面，这些方面对于引发令人满意的人类视觉体验至关重要：身份保留、提示对齐和视觉吸引力，本文引入了旨在增强这些方面的新技术。具体来说，提出了一种新颖的合成配对数据生成机制，新的完全并行架构结合了三个文本编码器和一个可训练的视觉编码器，以优化身份保留和文本对齐，以及一种新颖的由粗到细的多阶段微调方法，旨在逐步增强视觉吸引力，从而推动生成图像的视觉吸引力边界。最后，展示了“Imagine Yourself”在多主体个性化上的通用性。

概览

下图 2 展示了所提模型架构。使用扩散模型进行个性化图像生成的关键在于将参考身份作为附加控制信号引入扩散模型。本文提出通过一个可训练的CLIP补丁编码器从参考图像中提取身份信息。然后，通过并行交叉注意力模块将身份视觉信号添加到文本信号中。为了更好地保留基础模型的高视觉质量，本文利用低秩适配器（LoRA）来冻结自注意力和文本交叉注意力模块，仅对适配器进行微调。

合成配对数据 (SynPairs)

在训练过程中，发现一个关键问题是使用未配对数据，即将裁剪后的图像作为输入，原始图像作为目标。这会引入严重的复制粘贴效应，使模型难以学习输入和输出之间的真实身份关系，而不仅仅是复制参考图像。因此，模型无法生成符合复杂提示的图像，例如改变表情或头部方向。

为了解决这个问题，本文提出了一种新的合成数据生成方法，用于创建高质量的配对数据（同一身份但表情、姿势和光照条件不同）进行训练。相比直接获取不易获得的真实配对数据，研究表明，合成配对数据可以保留更高质量的数据，从而进一步增强“Imagine Yourself”模型的多个方面。

为了生成SynPairs数据，本文首先通过多模态LLM获取真实参考图像的密集图像描述。然后，这些描述通过基于Llama3（Meta AI）的重写阶段，以在描述中注入更多的视线和姿势多样性。重写后的描述被输入到例如Emu这样的文本到图像生成工具中，作为提示生成高质量的合成图像。接下来，根据参考图像的身份对生成的图像身份进行优化。在生成大量精心策划的合成对后，它们会通过基于相似性的自动过滤器进行筛选。

模型结构

视觉编码器

本文建议使用可训练的CLIP ViT-H补丁视觉编码器，从参考图像中提取身份控制信号。与之前严重依赖面部 embedding的方法不同，本文发现通用的可训练视觉编码器可以提供足够的信息来保留身份特征。

为了进一步提高身份保留能力，本文对脸部区域进行裁剪，并遮盖参考图像中相应的背景，以避免模型关注非关键区域，例如图像背景和裁剪图像中的非脸部区域。上图2展示了视觉 embedding的工作流程。还建议使用zero_conv进行初始化，以避免在训练开始时添加噪声控制信号。

文本编码器

本文采用了三种不同的文本编码器：CLIP ViT-L文本编码器、UL2和ByT5，作为文本条件机制。这些编码器的选择是基于其各自的优势和对特定任务的适用性。例如，CLIP文本编码器与CLIP视觉编码器共享一个公共空间，有助于增强身份保留。为了利用这种对齐，本文用预训练的CLIP文本编码器初始化视觉编码器的交叉注意力模块。

同时，选择UL2是因为其在理解长而复杂的文本提示方面的能力，这对于处理复杂输入数据非常重要。此外，ByT5模型因其在字符编码方面的卓越能力而被集成。本文利用ByT5来改善图像中的视觉文本生成，例如标牌上的文字。

完全并行的图文融合

本文研究了一种并行注意力架构，以结合视觉和文本条件。具体来说，从参考图像中提取的新视觉条件与空间特征通过一个新的视觉交叉注意力模块进行融合。该视觉交叉注意力模块的输出随后与文本交叉注意力的输出相加。在实验中，这种设计比简单地将文本和视觉控制进行拼接更好地平衡了视觉和文本控制。

LoRA

为了保持基础模型的视觉质量，本文在交叉注意力模块上应用了低秩适配器（LoRA）。基础Unet中的自注意力和文本交叉注意力模块保持冻结。观察到，这种设计不仅更好地保留了基础模型的图像生成能力，还将收敛速度提高了最多5倍。

多阶段微调

本文提出了一种多阶段微调方法，通过交替使用真实和合成数据，在可编辑性和身份保留之间实现最佳平衡。在前两个阶段，利用大规模数据（九百万）对模型进行预训练，使其能够基于参考身份进行调整。在后续阶段，通过人工参与（HITL）收集的高质量、美学图像对预训练的检查点进行微调。经验表明，使用真实图像训练能最好地保留身份，而使用合成图像训练则能更好地对齐提示（可编辑性）。合成图像是从各自的提示生成的，因此图像文本对齐度高，训练过程中噪声信息较少，但身份信息不如真实数据丰富。这就是本文采用交替训练策略的原因，如下图5所示。经过第一阶段的真实数据预训练后，模型能够基于图像进行调整；第二阶段的合成数据预训练后，提示对齐度高但身份不完美；第三阶段的高质量真实数据微调后，身份良好但提示对齐度下降；第四阶段的高质量合成数据微调实现了身份和可编辑性之间的最佳平衡。

扩展到多主题个性化

先前介绍的全并行图像-文本融合流程可以灵活扩展以适应多主体个性化。例如，在两人场景中，本文可以将两个参考图像的视觉 embedding 进行拼接，然后输入到K和V组件中，而不是像下图4左上分支所示的那样仅传递单个参考图像的全局 embedding 和补丁 embedding。在这种设置下，通过训练，网络学习如何在生成提示引导的图像背景时，将参考图像映射到群体照片中的对应主体。下图11展示了一些两人个性化的结果示例。

实验

本节对模型进行了定性和定量评估，并将其与当前最先进的个性化模型进行了比较。结果表明，本文的模型在各个方面都优于现有模型，设立了新的业界标杆。

定量评价

评估数据集

为了对“Imagine Yourself”模型进行定量评估，本文创建了一个由两部分组成的评估集：参考图像和评估提示。为了在所有代表性案例中进行全面比较，收集了51个不同性别、种族和肤色的参考身份。研究者们设计了65个提示来评估模型，这些提示涵盖了广泛的使用场景，包括需要面部表情或姿势变化、相机运动和风格化的复杂提示。这些提示有助于评估模型在复杂交互、多样化姿势生成和协调性方面的能力。每个身份与所有65个提示配对，总共进行51×65=3315次生成，以供一轮人工评估。提示的分布情况如下图12所示。

基准方法

本文对比了当前最先进的适配器个性化模型和控制模型。对于适配器方法，本文选择了在视觉吸引力、身份保留和提示对齐这三个评估模型的维度上达到最佳平衡的模型。对于控制方法，本文注意到姿势图像的选择对最终生成图像的构成起着重要作用，即对于某些提示，精心选择的姿势图像可以使生成的图像更好或更差。为了公平比较，本文使用参考图像本身作为姿势条件。

人工评价

为了评估生成图像的质量，本文进行了大规模的标注过程，评估了图像的各个方面。本文使用人工标注作为评估模型性能（独立评估）和与其他模型比较（对比评估）的黄金标准。

在独立评估中，本文向标注者展示了输入图像、提示和生成图像，并要求他们根据以下三个问题在“强通过/弱通过/不通过”范围内进行评分：

身份相似度：输出图像中的主体是否与原始图像中的主体具有相同的身份？
提示对齐：输出图像是否忠实地遵循个性化提示？
视觉吸引力：输出图像是否具有视觉吸引力？

在对比模型评估中，本文在相同的三个维度上将一个模型与另一个模型进行比较。

如下表1所示，在大多数维度上，Imagine Yourself显著优于两种最先进的方法：adapter-based模型和control-based模型。具体来说，Imagine Yourself在提示对齐方面显著更好，分别比最先进的适配器模型和控制模型提高了45.1%和30.8%。然而，本文观察到控制模型在身份保留方面优于Imagine Yourself，因为它在图像中心硬性粘贴参考图像，尽管身份指标较高，但导致图像不自然。

消融实验

在本文的消融研究中，检验了所提议的“Imagine Yourself”模型中各个组件的有效性。主要的消融结果见下表 2。

多阶段微调的影响

消融结果突出显示了多阶段微调的影响。将多阶段微调减少到单阶段会显著降低所有指标，尤其是在提示对齐上降低了25.5%，在视觉吸引力上降低了42.0%。此外，观察到，合成微调阶段提供了更好的提示对齐，而真实数据微调阶段提高了身份保留能力。

完全并行注意力的影响

本文通过将完整的并行注意力移除，改为标准的标记串联设计，以展示完整并行注意力架构的影响。本文观察到所有指标都有所下降，具体为提示对齐降低5.2%、身份保留降低1.4%、视觉吸引力降低22.0%。这表明将三个文本编码器和视觉编码器通过完整并行注意力结合的重要性。

合成对的影响

SynPairs通过消除复制粘贴效应增加了生成图像的多样性。本文的消融研究验证了这一假设，并展示了相比没有合成配对训练的模型有更好的提示对齐。本文观察到，这对需要对原始图像进行较大改动的复杂提示特别有效，例如表情变化、遮挡面部或转头等。然而，也发现SynPair训练在身份保留上有所退步，因为对应的参考和目标配对中的面部并不完全相同。未来的工作将集中于提高SynPair训练数据中面部的相似性。

未来工作

研究者们希望继续研究并探索以下方向：

将个性化图像生成扩展到视频生成。关键是在视频生成中一致地保持身份和场景。
尽管“Imagine Yourself”在提示对齐方面优于现有模型，但本文观察到在处理描述非常复杂姿势的提示（例如，从山上跳下）时仍然存在局限性。未来的工作将专注于提高生成图像在这些提示上的质量。

结论

本文介绍了“Imagine Yourself”，一种专为个性化图像生成设计的开创性模型。与传统的基于微调的方法不同，“Imagine Yourself”作为一种无需微调的解决方案，提供了一个无需个人调整的共享框架，所有用户均可访问。“Imagine Yourself”通过引入以下创新，克服了以往研究在保持身份、遵循复杂提示和保持视觉质量之间取得平衡的限制：

一种新颖的合成配对数据生成机制，以促进图像多样性；
一个完全并行的注意力架构，具有三个文本编码器和一个完全可训练的视觉编码器，以增强文本的忠实度；
一种新颖的由粗到细的多阶段微调方法，以逐步提高视觉质量。
本文在数千个示例上进行了大规模的人类评估，展示了“Imagine Yourself”优于最先进的个性化模型，在身份保留、视觉质量和文本对齐方面表现出卓越的能力。