ControlGAN：Controllable Text-to-Image Generation

1 研究目的

当前的生成网络通常是不可控的，这意味着如果用户更改句子的某些单词，合成图像将与原始文本生成的合成图像显着不同；当给定的文本描述（例如颜色）发生变化时，鸟类的相应视觉属性被修改，但其他不相关的属性（例如，姿势和位置）也发生了变化。

图1 使用自然语言描述修改合成图像的示例

本文的目标是从文本中生成图像，并允许用户在一个框架中使用自然语言描述来操纵合成图像。特别是专注于通过改变给定的文本描述来修改生成图像中的对象的视觉属性（例如类别、纹理和颜色）

为此，作者提出了一种新的可控文本到图像生成对抗网络(ControlGAN)，它可以合成高质量的图像，还允许用户操纵对象的属性，而不影响其他内容的生成。

提出三个新颖的组件：

1）词级空间和通道注意驱动生成器可以有效地解开不同的视觉属性

2）词级鉴别器为生成器提供与每个视觉属性相关的细粒度训练信号

3）感知损失的采用减少了生成中涉及的随机性，并强制生成器重建与未修改文本相关的内容。

2 模型结构

2.1 整体框架

采用多阶段AttnGAN作为骨干架构(见图2)，在(b)中， $L_{corre}$ 是第2.3节中讨论的相关损失。在(c)中， $L_{per}$ 是第2.4节中讨论的感知损失。

图2 ControlGAN 的架构

给定一个句子 S，文本编码器采用预训练的双向 RNN （AttnGAN用到的），将句子 S 编码为句子特征 $s\in R^{D}$ ，维度为 D 描述整个句子和 单词特征 $w\in R^{D*L}$ 长度为 L（即单词数）和维度 D。
接下来的StackGAN，还将条件增强 (CA) 应用于 s。增强的句子特征 $\tilde{s}$ 与随机向量 z 进一步连接，作为第一阶段的输入。
整个框架分多个阶段从粗到细生成图像，在每个阶段，网络产生一个隐藏的视觉特征 $v_{i}$ ，它是对应生成器 $G_{i}$ 的输入，生成合成图像。
空间注意模块和提出的通道注意模块以w（单词特征）和 $v_{i}$ （隐藏的视觉特征）为输入，输出注意的单词上下文特征。这些注意力特征进一步与隐藏的视觉特征 $v_{i}$ 连接，然后作为下一阶段的输入。
生成器通过结合空间注意模块 和提出的通道注意模块来利用注意力机制（上面两个蓝色框框）。
由于AttnGAN的空间注意模块只能将单词与单个空间位置相关联，而不考虑通道信息。所以，作者引入了一个通道注意模块来利用单词和通道之间的连接。
通过实验发现，通道注意模块将语义上有意义的部分与相应的单词高度相关，而空间注意力侧重于颜色描述（见图 6）。
因此，作者提出的通道注意模块以及空间注意模块可以帮助生成器解开不同的视觉属性，并允许它只关注最相关的子区域和通道。

2.2 通道注意模块

图3（a）通道注意模块

在第 k 阶段，通道注意模块（见图 3 (a)）接受两个输入：

单词特征 w
隐藏视觉特征 $v_{k}\in \mathbb{R}^{C*\left ( H_{k} * W_{k}\right )}$ ，其中 $H_{k}$ 和 $W_{k}$ 表示第 k 阶段特征图的高度和宽度。

单词特征 w首先通过感知层 $F_{k}$ 映射到与视觉特征 $v_{k}$ 相同的语义空间中，产生 $\tilde{w}_{k}= F_{k}w$ ，其中 $F_{k}\in \mathbb{R}^{\left ( H_{k}*W_{k} \right )*D}$ 。
然后，通过将转换后的单词特征 $\tilde{w}_{k}$ 和视觉特征 $v_{k}$ 相乘来计算通道注意矩阵 $m_{k}\in\mathbb{R} ^{C*L}$ ，表示为 $m^{k}=v_{k} \tilde{w}_{k}$ 。因此， $m^{k}$ 聚合所有空间位置的通道和单词之间的相关性值。
接下来，通过 softmax 函数对 mk 进行归一化以生成归一化的通道注意矩阵 $\alpha ^{k}$ 为：

注意力权重 $\alpha _{i,j}^{k}$ 表示视觉特征 $v_{k}$ 中的第 i 个通道与句子 S 中的第 j 个单词之间的相关性，值越高表示相关性越大。

配备了通道注意矩阵 $\alpha ^{k}$ ，得到了最终的通道注意特征 $f_{k}^{a}\in \mathbb{R}^{C*\left ( H_{k}*W_{k} \right )}$ ，记为 $f_{k}^{a}= \alpha ^{k}\left ( \tilde{w}_{k}\right )^{T}$ 。 $f_{k}^{a}$ 中的每个通道都是一个动态表示，由视觉特征中单词与相应通道之间的相关性加权。

因此，具有高相关值的通道被增强，从而对相应的单词有很高的响应，这有助于将单词属性分解为不同的通道，并通过分配较低的相关性来减少不相关通道的影响。

2.3 词级判别器

为了鼓励生成器根据文本仅修改图像的一部分，判别器应该提供具有细粒度训练反馈的生成器，这可以指导与最相关的单词相对应的子区域的生成。

实际上，文本自适应鉴别器（text-adaptive）也探索了鉴别器中的词级信息，但它采用全局平均池化层输出一维向量作为图像特征，然后计算图像特征与每个词之间的相关性。但是通过这样做，图像特征可能会丢失重要的空间信息，这为解开不同的视觉属性提供了关键线索。

为了解决这个问题，作者提出了一种新的词级鉴别器，其灵感来自文本自适应鉴别器（text-adaptive）来探索图像子区域和每个词之间的相关性；见图3(b)。

图3（b）词级判别器

词级鉴别器接受两个输入：

从文本编码器编码的词汇特征 w, w'，它遵循与生成器中使用的架构相同的架构（见图 3 (a)），其中 w 和 w' 分别表示从原始文本 S 和随机采样的不匹配文本编码的单词特征。
视觉特征 $n_{real}$ , $n_{fake}$ ，分别由来自真实图像 I 和生成图像 I' 的基于 GoogleNet 的图像编码器编码。

为了简单起见，

使用 $n\in \mathbb{R}^{C*\left ( H*W \right )}$ 来表示视觉特征 $n_{real}$ 和 $n_{fake}$
使用 $w\in \mathbb{R}^{D*L}$ 来表示原始和不匹配的单词特征
词级鉴别器包含一个感知层 ${F}'$ ，用于对齐视觉特征n和单词特征w的通道维度，记为 $\tilde{n}= {F}'n$ ，其中 ${F}'\in \mathbb{R}^{D*C}$ 是要学习的权重矩阵。
然后，词-上下文相关矩阵 $m\in \mathbb{R}^{L*\left ( H*W \right )}$ 可由 $m= w^{T}\tilde{n}$ 导出，并通过softmax函数进一步归一化得到相关矩阵β:

其中， $\beta _{i,j}$ 表示图像第i个单词与第j个子区域的相关值。

然后，将所有由词-上下文相关矩阵β加权的空间信息进行聚合，通过 $b= \tilde{n}\beta ^{T}$ 得到图像子区域感知的词特征 $b\in \mathbb{R}^{D*L}$ 。
此外，为了进一步降低不重要词的负面影响，采用词级自注意推导出一个长度为L的一维向量 $\gamma$ ，它反映了每个词的相对重要性。
然后，重复 $\gamma$ 乘以D次，得到与b大小相同的 ${\gamma }'$ 。
接下来，b进一步被 ${\gamma }'$ 重新加权，得到 $\tilde{b}$ ，记为 $\tilde{b}=b\bigodot {\gamma }'$ ，其中表示元素的乘法。
最后，我们推导出第i个单词与整个图像之间的相关性，如Eq. (3):

其中 $\sigma$ 为sigmoid函数， $r_{i}$ 表示第i个单词与图像的相关性， $\tilde{b}_{i}$ 和 $w_{i}$ 分别表示b和w的第i列。

因此，图像I与句子S之间的最终关联值 $L_{corre}$ 通过对所有词-上下文关联求和来计算，记为 $L_{corre}\left ( I,S \right )= \sum_{i=0}^{L-1}r_{i}$ 。

通过这样做，生成器可以从单词级鉴别器接收每个视觉属性的细粒度反馈，这可以进一步帮助独立监督每个子区域的生成和操作。

2.4 感知损失

在没有对与文本无关的区域（例如背景）添加任何约束的情况下，生成的结果可能高度随机，也可能无法与其他内容在语义上一致。为了减轻这种随机性，采用了基于在ImageNet数据集上预训练的16层VGG网络的感知损失。该网络用于从生成的图像 ${I}'$ 和真实图像I中提取语义特征，感知损失定义为：

其中 $\varphi _{i}\left ( I \right )$ 是 VGG 网络第 i 层的激活， $H_{i}$ 和 $W_{i}$ 分别是特征图的高度和宽度。

在可控文本到图像生成中应用感知损失，可以通过匹配特征空间来减少图像生成中涉及的随机性。

2.5 目标函数

通过最小化生成器损失 $L_{G}$ 和鉴别器损失 $L_{D}$ 交替训练生成器和鉴别器。

2.5.1 生成器目标

生成器损失 $L_{G}$ 如式(5)所示，包含：

对抗性损失 $L_{G_{k}}$
文本图像相关损失 $L_{corre}$
感知损失 $L_{per}$
文本图像匹配损失 $L_{DAMSM}$

其中：

K 是阶段数。
$I_{k}$ 是从第 k 阶段的真实图像分布 $P_{data}$ 中采样的真实图像。
$I_{{k}'}$ 是从模型分布 $PG_{k}$ , $\lambda _{2}$ , $\lambda _{3}$ , $\lambda _{4}$ 中采样的第 k 个阶段的生成图像是控制不同损失的超参数。
$L_{per}$ 是第 2.4 节中描述的感知损失，它对生成过程施加了约束以减少随机性。
$L_{DAMSM}$ 用于基于余弦相似度测量文本图像匹配分数。
$L_{corre}$ 反映了生成的图像与给定文本描述之间的相关性考虑空间信息。

对抗性损失 $L_{G_{k}}$ 由Eq.(6)所示的无条件和条件对抗损失组成:

采用无条件对抗损失使合成图像是真实的，利用条件对抗损失使生成的图像与给定的文本S匹配。

2.5.2 判别器目标

训练鉴别器 D 的最终损失函数定义为：

其中：

$L_{corre}$ 是决定图像中是否存在与单词相关的视觉属性的相关损失（参见第 2.3 节）。
${S}'$ 是从数据集中随机采样的不匹配文本描述，与 $I_{k}$ 无关， $\lambda _{1}$ 是控制额外损失重要性的超参数。

对抗性损失 $L_{D_{k}}$ 包含两个组件：

无条件对抗性损失决定了图像是真实的
条件对抗性损失决定了给定图像是否与文本描述 S 匹配

3 实验评估

3.1 数据集

在CUB鸟和MS COCO数据集上进行评估：

CUB数据集包含 8,855 个训练图像和 2,933 个测试图像，每张图像有 10 个相应的文本描述。
COCO 数据集，它包含 82,783 个训练图像和 40,504 个验证图像，每张图像有 5 个相应的文本描述。

根据 StackGAN中介绍的方法预处理这两个数据集。

3.2 实施细节

在AttnGAN之后的ControlGAN生成器中有三个阶段(K =3)。这三个尺度分别为64 × 64、128 × 128和256 × 256，在第2和3阶段应用空间和通道注意。
文本编码器是一个预先训练的双向LSTM，将给定的文本描述编码为256维的句子特征和长度为18、维数为256的单词特征。
感知损失中，计算在ImageNet上预训练的VGG-16层relu2 _2处的内容损失。
整个网络使用 Adam 优化器进行训练，学习率为 0.0002。
两个数据集的超参数 $\lambda _{1}$ , $\lambda _{2}$ , $\lambda _{3}$ , 和 $\lambda _{4}$ 分别设置为 0.5、1、1 和 5。