今天的文章来自公众号粉丝投稿,文章提出了一种组件可控的个性化生成方法MagicTailor,旨在个性化生成过程中可以自由地定制ID的特定组件。
相关链接
论文阅读:https://arxiv.org/pdf/2410.13370
项目主页:https://correr-zhou.github.io/MagicTailor/
论文介绍
文生图(T2I)扩散模型的最新进展使得能够根据文本提示创建高质量图像,但它们仍然难以生成对特定视觉概念进行精确控制的图像。现有的方法可以通过学习参考图像来复制给定的概念,但它们缺乏对概念中的各个组件进行细粒度定制的灵活性。
在本文中,介绍了组件可控的个性化,这是一项新颖的任务,它允许用户在个性化视觉概念时重新配置特定组件,从而突破了 T2I 模型的界限。由于两个主要障碍,这项任务特别具有挑战性:语义污染,即不需要的视觉元素破坏个性化概念;语义不平衡,导致概念和组件的学习不成比例。
为了克服这些挑战,本文设计了MagicTailor,这是一个创新框架,利用动态掩码退化(DM-Deg)来动态扰乱不需要的视觉语义和双流平衡(DS-Bal),为所需的视觉语义建立平衡的学习范例。广泛的比较、消融和分析表明,MagicTailor 不仅在这项具有挑战性的任务中表现出色,而且在实际应用中也具有重大前景,为更细致和更具创意的图像生成铺平了道路。
方法介绍
MagicTailor 使用参考图像作为输入,通过低秩自适应 (LoRA) 微调 T2I 扩散模型,以学习目标概念和组件,从而能够生成将组件无缝集成到概念中的图像。 我们引入了动态掩码退化(DM-Deg),这是一种动态干扰不需要的视觉语义的新技术。这种方法有助于抑制模型对不相关视觉细节的敏感性,同时保留整体视觉上下文,从而有效减轻语义污染。 此外,我们采用双流平衡(DS-Bal),一种旨在平衡视觉语义学习的双流学习范式,来解决语义不平衡的问题。在线去噪 U-Net 执行样本最小-最大优化,而动量去噪 U-Net 应用选择性保留正则化,确保更忠实的个性化。
组件可控的个性化
(a) 个性化插图,展示文本到图像 (T2I) 扩散模型如何从给定的参考图像中学习和再现视觉概念。 (b) 组件可控个性化的图示,描绘了一项新制定的任务,旨在在个性化过程中修改视觉概念的特定组件。 (c) MagicTailor 生成的示例图像,展示了所提出的 MagicTailor 的有效性,MagicTailor 是一种新颖的框架,采用 T2I 扩散模型来实现组件可控的个性化。
组件可控个性化的挑战
语义污染
-
不受欢迎的视觉元素可能会无意中扰乱个性化概念。
-
简单的屏蔽策略是无效的,会导致意外的合成;
-
我们的 DM-Deg 有效地抑制了不需要的视觉语义,防止了这种污染。
语义不平衡
-
同时学习概念和组件可能会导致不平衡,导致概念或组件扭曲(这里我们介绍前者的情况)。
-
我们的 DS-Bal 确保平衡学习,提高个性化表现。
定性结果
我们展示了由 MagicTailor 生成的图像以及针对各个领域的个性化的 SOTA 方法。 MagicTailor 总体上实现了良好的文本对齐、强大的身份保真度和高生成质量。
定量结果
我们将 MagicTailor 与基于自动指标(CLIP-T、CLIP-I、DINO 和 DreamSim)和用户研究(人类对文本对齐、身份保真度和生成质量的偏好)的 SOTA 个性化方法进行比较。最佳结果以粗体标记。 MagicTailor 可以在这项具有挑战性的任务中取得卓越的性能。