【生成模型之十三】SmartEraser

论文：SmartEraser: Remove Anything from Images using Masked-Region Guidance

代码： https://github.com/longtaojiang/SmartEraser

类型：fine-tuned diffusion model

其他：支持简历修改面试辅导

一、背景

到目前为止，对象移除一直由“mask-and-inpaint”范式主导，在这种范式中，mask区域被排除在输入之外，而模型则依赖于未mask区域来inpaint缺失的区域。然而，这种方法缺乏mask区域的上下文信息，通常会导致性能不稳定。在这项工作中，我们介绍了SmartEraser，它采用了一种名为“Masked-Region-Guidance”的新“remove”范式构建。这种范式保留了输入中的mask区域，并将其用作删除过程的指导。

它提供了几个明显的优点：（a）它引导模型准确识别要删除的对象，防止其在输出中再重新生成；（b）由于用户掩码经常超出对象本身，因此它有助于在最终结果中保留周围的上下文；利用这一新范式，我们提出了Syn4Removal，这是一个大规模的对象删除数据集，其中实例分割数据用于将对象复制并粘贴到作为删除目标的图像上，原始图像作为基本事实。

二、Related Work

目前，大多数对象移除方法采用“mask-and-inpaint”范式，其中mask区域被排除在输入之外，通常用placeholder中性占位符（例如黑色）填充。然后，该模型根据周围的内容对mask区域进行内绘。然而，我们发现这种方法存在两个主要问题。首先，这种策略经常在mask区域内产生意想不到的目标。由于缺乏对删除目标和其他内容的精确区分，这些方法严重依赖背景上下文，有时会导致无意中修复新对象，例如，如图2（a）所示，在道路上增加一辆新车而不是删除原来的一辆。其次，用户定义的mask经常超过目标对象，需要“mask-and-inpaint”方法来合成这些扩展区域。这会无意中修改附近的上下文，降低视觉连贯性。

为了解决这些局限性，我们引入了一种新的对象移除范式，称为Mask-Region-Guidance。核心思想是，不应排除mask区域，而应将其用作去除过程中的关键指导。我们的方法很简单：与现有方法一样，我们保留原始图像作为输入，用掩码输入指示掩码区域，而不是用占位符替换掩码区域。如图2（b）所示，这种范式使模型能够准确识别目标对象，防止输出中的意外再生，并在最终结果中有效地保留目标对象的周围环境。

然而，我们的新范式不能直接用现有的对象移除数据构造方法来实现。通常，他们的训练数据是通过屏蔽图像的一部分来创建的，然后训练模型来预测被mask的内容。如果将这种方法应用于我们提出的mask区域指导范式，由于mask区域包含在输入中，该模型可以通过简单地从输入中复制mask内容来利用快捷方式。因此，由input、mask和remove result三元组组成的数据集对我们的范式至关重要。不幸的是，现有的相关数据集[23,36,45,48]要么包含数量有限的独特场景，要么依赖于修复模型来生成伪去除结果。

为了解决这个问题，我们引入了一种合成技术来创建专门用于对象删除的训练数据。我们的方法涉及将来自不同图像的对象实例粘贴到不同的背景图像上，形成输入图像，粘贴的实例掩模作为输入掩模，原始背景图像被设计为ground truth。使用这种方法，我们生成Syn4Removal，一个由真实背景图像、mask和带有粘贴对象的背景三元组组成的大规模数据集。Syn4Removal的设计提供了相反的场景，并支持在我们的新范式下进行有效的训练，鼓励模型在没有捷径的情况下准确学习对象移除。

为了使Syn4Removal适用于训练对象移除模型，我们设计了一个pipeline来生成高质量的数据。首先，我们过滤掉低质量的实例和背景图像。然后，我们开发了一种计算图像上可行粘贴位置的方法，确保对象不会与粘贴区域中的实例重叠，这有助于防止模型重新生成不需要的对象。最后，使用混合算法将实例粘贴到背景图像上。由此产生的数据集由100万个图像三元组组成。

三、Method

现有方法：大多数现有方法遵循“mask-and-inpaint”范式，其中mask区域被排除在输入之外，模型试图根据未mask区域修复缺失的内容。

现有方法缺点：它们通常会在mask区域重新生成新对象或产生模糊和伪影。

基于所提出的掩模区域引导范式和Syn4Removal数据集，我们设计了一个基于文本到图像稳定扩散模型的物体移除框架。

Mask Enhancement.

如果模型只使用精确的对象掩码进行训练，那么训练和推理之间的掩码形状和大小将存在显著差距。具体来说，我们使用六种掩码类型来增强对象掩码：(1) Original mask；(2) Eroded mask；(3) Dilated mask；(4) Convex hull mask；(5) Ellipse mask；(6) Bbox & Bessel mask；

CLIP-Based Visual Guidance.

我们的SmartEraser是基于文本到图像的扩散模型设计的，文本提示在指导生成过程中起着重要作用。我们的目标是设计一个提示，指示模型在生成过程中要删除什么。具体来说，我们首先使用相应的增强掩模对图像中与移除目标对应的区域进行分割。然后将该分割区域馈送到预训练的CLIP[33]视觉编码器中，以提取其视觉特征（例如class token）。此功能与文本编码器输出空间不精确对齐。然后利用可训练的MLP网络将视觉特征映射到文本编码器的特征空间。然后将映射的embedding附加到提示“Remove the instance of ”的CLIP文本嵌入的标记上。在训练过程中，视觉编码器被冻结，MLP和文本编码器是可训练的。因此，基于CLIP的视觉引导制定如下：

其中τθ（·）是文本编码器，νθ（·”）是视觉编码器，y表示输入文本提示“remove the instance of”。

Loss Function.

假设E（·）是VAE编码器，因此输入图像x的潜在特征及其GT xb分别为z̄=E（x）和z=E（xb），zt是z的噪声特征，在时间步长t处添加了噪声ε。因此，标准扩散过程后的总体训练损失公式如下：

4、Experiments

为了进行公平的比较，我们遵循之前的实验设置[9,55]，并在广泛使用的SD v1.5型号上微调SmartEraser。训练过程涉及微调扩散模型和MLP中的UNet和文本编码器组件，以将视觉特征映射到文本特征空间。SmartEraser在提出的Syn4Removal数据集上进行训练，batch size为32，使用AdamW、optimizer进行500k次迭代，所有可训练模块的学习率为2e-5。

Evaluation metrics.

为了定量评估对象移除模型的性能，我们考虑了三个关键方面：（1）整体图像质量，Fre ́chet Inception Distance (FID) and CLIP Maximum Mean Discrepancy (CMMD)；(2) consistency between the predicted region and the background context, evaluated by REMOVE [5] metric；(3) consistency between the pre- dicted region and corresponding region in the ground truth, assessed by LPIPS [52], SSIM [44], and PSNR；