【论文笔记】FFA-Net: Feature Fusion Attention Network for Single Image Dehazing

在这里插入图片描述

文章目录

1. 研究背景
2. FFA - Net网络结构
3. 实验结果
4. 研究贡献
5. 重点详解
- 1. 通道注意力（Channel Attention, CA）
- - 通道注意力的实现步骤：
- 2. 像素注意力（Pixel Attention, PA）
- - 像素注意力的实现步骤：
- 3. 结合通道注意力与像素注意力

1. 研究背景

图像去雾的重要性
- 单图像去雾是计算机视觉中的基本低级视觉任务。由于大气中存在烟雾、灰尘等悬浮粒子，拍摄的图像常出现色彩失真、模糊和低对比度等问题，这不仅影响图像质量，还会给后续的分类、跟踪等高级视觉任务带来困难。因此，图像去雾旨在从受损的输入图像中恢复出清晰的无雾图像，作为高级视觉任务的预处理步骤。
现有方法的局限性
- 传统先验方法：早期的去雾方法大多基于物理散射模型，如DCP（Dark Channel Prior）等。这些方法基于不同的图像统计先验，将其作为额外约束来补偿信息损失。然而，先验可能在实际中不可靠，例如当场景对象与大气光相似时，会导致传输图估计不准确，在某些实际情况下效果不佳。
- 深度学习方法：随着深度学习的兴起，出现了许多基于神经网络的去雾方法，如DehazeNet、MSCNN等。这些方法直接回归中间传输图或最终的无雾图像，相比传统方法具有更好的性能和鲁棒性。但现有的基于CNN的图像去雾网络通常对通道和像素特征同等对待，无法处理雾在图像中不均匀分布的情况，且随着网络加深，浅层特征信息难以保留。

2. FFA - Net网络结构

整体架构
- FFA - Net是一个端到端的特征融合注意力网络，用于直接恢复无雾图像。其架构主要由三个关键部分组成（如图2所示）：
  - 浅层特征提取部分：输入为雾图，首先经过这部分提取浅层特征。
  - 多个带有跳跃连接的组结构（Group Architectures）：提取的浅层特征被送入N个组结构，每个组结构包含B个基本块结构（Basic Block Structure），且具有跳跃连接。这些组结构用于进一步提取和处理特征。
  - 特征融合与重建部分：组结构输出的特征通过特征注意力（Feature Attention，FA）模块进行融合，然后经过重建部分（包括两层卷积网络和全局残差学习结构）得到无雾输出。
关键模块
- 特征注意力（FA）模块

目的：考虑到不同通道特征包含完全不同的加权信息，且雾在图像像素上分布不均匀，FA模块旨在为不同的通道和像素分配不同的权重，以突出重要的特征，抑制不重要的特征，从而提供处理不同类型信息的灵活性，扩展CNN的表示能力。
结构与工作原理
- 通道注意力（Channel Attention，CA）：
  - 首先对输入特征图进行全局平均池化，将通道方向的全局空间信息整合到一个通道描述符中。公式为：
    $g_{c}=H_{p}\left(F_{c}\right)=\frac{1}{H × W} \sum_{i=1}^{H} \sum_{j=1}^{W}X_{c}(i,j)$
    其中 $X_{c}(i, j)$ 是第 $c$ 个通道 $x_{c}$ 在位置 $(i, j)$ 的值， $H_{p}$ 是全局池化函数，得到一个 $C \times 1 \times 1$ 的向量 $g_{c}$ 。
  - 然后特征经过两个卷积层和 ReLU、sigmoid 激活函数得到不同通道的权重：
    $CA_{c}=\sigma\left(Conv\left(\delta\left(Conv\left(g_{c}\right)\right)\right)\right)$
    其中 $\sigma$ 是 sigmoid 函数， $\delta$ 是 ReLU 函数。
  - 最后将输入特征 $F_{c}$ 与通道权重 $CA_{c}$ 进行逐元素乘法操作，得到经过通道注意力加权后的特征：
    $F_{c}^{*}=CA_{c} \otimes F_{c}$
- 像素注意力（Pixel Attention，PA）：
  - 以通道注意力的输出 $F^{*}$ 为输入，将其送入两个带有 ReLU 和 sigmoid 激活函数的卷积层，形状从 $C \times H \times W$ 变为 $1 \times H \times W$ ，得到像素注意力权重：
    $PA=\sigma\left(Conv\left(\delta\left(Conv\left(F^{*}\right)\right)\right)\right)$
  - 最后将 $F^{*}$ 与 $P A$ 进行逐元素乘法操作，得到经过像素注意力加权后的特征：
    $\tilde{F}=F^{*} \otimes PA$
    此即为 FA 模块的输出。
- 基本块结构（Basic Block Structure）

目的：由局部残差学习（Local Residual Learning，LRL）和特征注意力（FA）模块组成，旨在允许薄雾区域或低频等不重要信息通过多个局部残差连接绕过，使主网络专注于有效信息，同时提高网络性能和训练稳定性。
工作原理：局部残差学习通过跳跃连接，将不重要信息绕过主网络路径，而特征注意力模块则进一步对特征进行加权处理，突出重要信息。

注意力基础的不同层次特征融合（Attention-based Different Levels Feature Fusion，FFA）结构

目的：
将不同层次的特征进行融合，保留浅层信息并传递到深层，同时自适应学习不同层次特征信息的权重，给予重要特征更多权重，以提高网络性能。
工作原理：
1. 首先将 $G$ 个组结构输出的所有特征图在通道方向上进行拼接：
  $F_{\text{concat}} = \text{Concat}(F_1, F_2, ..., F_G)$
2. 然后通过 FA 模块计算注意力权重，并进行乘法融合：
  $F_{\text{output}} = \text{FA}(F_{\text{concat}}) \otimes F_{\text{concat}}$
  这样能够有效增强不同层次特征的贡献，提高网络性能。

3. 实验结果

与现有方法比较
- 在RESIDE数据集的SOTS测试集上，与DCP、AOD - Net、DehazeNet、GCANet等四种不同的现有先进去雾算法进行比较。结果表明，FFA - Net在PSNR和SSIM指标上大幅超越现有方法，例如在室内测试集上，PSNR从30.23dB提升到36.39dB。从定性比较来看，FFA - Net在图像细节和色彩保真度恢复上表现更优，能更好地处理厚雾和纹理丰富区域。
消融实验
- 为进一步证明FFA - Net架构的优越性，对网络的不同模块进行消融实验，主要考虑FA模块、LRL与FA的组合以及FFA结构。实验结果表明，每个考虑的因素都对网络性能起着重要作用，尤其是FFA结构。即使仅使用FA结构，网络也具有竞争力，LRL可稳定训练并提升性能，FA和FFA的结合使结果达到很高水平。

4. 研究贡献

提出FFA - Net用于单图像去雾，该网络性能大幅超越现有方法。
提出FA模块，结合通道注意力和像素注意力机制，为处理不同类型信息提供额外灵活性，更关注厚雾像素和重要通道信息。
提出由LRL和FA组成的基本块结构，允许不重要信息绕过，提高网络性能和训练稳定性。
提出FFA结构，能保留并融合不同层次特征信息，自适应学习特征权重，效果优于其他特征融合方法。

5. 重点详解

在FFA-Net中，**通道注意力（Channel Attention, CA）和像素注意力（Pixel Attention, PA）**是两个关键的注意力机制模块，它们分别用于处理不同通道和不同像素的特征信息。这两个模块的设计目的是为了更好地处理图像中不均匀的雾霾分布和不同通道的特征权重差异，从而提高去雾效果。

1. 通道注意力（Channel Attention, CA）

通道注意力的主要思想是：不同的通道特征包含不同的加权信息，尤其是在去雾任务中，某些通道可能包含更多的有用信息（如颜色、纹理等），而其他通道可能包含较少的信息。因此，通道注意力机制通过自适应地学习每个通道的权重，使得网络能够更加关注那些对去雾任务更重要的通道。

通道注意力的实现步骤：

全局平均池化（Global Average Pooling）：
首先，对每个通道的特征图进行全局平均池化，将每个通道的全局空间信息压缩为一个标量值。公式如下：

$g_{c}=H_{p}\left(F_{c}\right)=\frac{1}{H × W} \sum_{i=1}^{H} \sum_{j=1}^{W}X_{c}(i,j)$

其中 $X_{c}(i, j)$ 是第 $c$ 个通道 $x_{c}$ 在位置 $(i, j)$ 的值， $H_{p}$ 是全局池化函数，得到一个 $C \times 1 \times 1$ 的向量 $g_{c}$

卷积层和激活函数：
接下来，将全局平均池化后的特征通过两个卷积层，并使用ReLU和Sigmoid激活函数来生成每个通道的权重。公式如下：
$CA_{c}=\sigma\left(Conv\left(\delta\left(Conv\left(g_{c}\right)\right)\right)\right)$