摘要
https://arxiv.org/pdf/2305.17654
图像去雾是低级视觉领域中的一项典型任务。先前的研究验证了大型卷积核和注意力机制在去雾中的有效性。然而,存在两个缺点:引入大型卷积核时容易忽略图像的多尺度特性,而注意力模块的标准串联方式没有充分考虑雾分布的不均匀性。在本文中,我们提出了一种名为混合结构图像去雾网络(MixDehazeNet)的新型框架,该框架解决了上述两个问题。具体而言,它主要由两部分组成:多尺度并行大型卷积核模块和增强并行注意力模块。与单个大型卷积核相比,多尺度的并行大型卷积核在去雾阶段更能考虑部分纹理。此外,还开发了一种增强并行注意力模块,其中注意力模块的并行连接在处理不均匀雾分布的去雾方面表现更好。在三个基准数据集上进行的大量实验证明了所提方法的有效性。例如,与之前最先进的方法相比,MixDehazeNet在SOTS室内数据集上实现了显著改进(PSNR为42.62dB)。代码发布在https://github.com/AmeryXiong/MixDehazeNet。
1. 引言
图像去雾是计算机视觉中一项重要的低级任务。雾通常存在于图像、视频和其他视觉场景中,这会降低人类的识别能力。大多数计算机视觉任务,如目标检测[31,14,11]、重识别[29,5]和语义分割[24,4,43],都受到雾蒙蒙的图像和视频的隐性影响,从而降低了深度模型的性能。因此,旨在从匹配的雾蒙蒙的图像中恢复清晰场景的单图像去雾引起了学术界和工业界的广泛关注。作为基本的低级图像恢复任务,它可以作为后续高级视觉任务预处理阶段的第一步。
图像去雾的目标是将雾蒙蒙的图像恢复为无雾图像。大气散射模型[26, 27,28]通常用于解释图像去雾的过程。形式上,给定图像 x x x, J ( x ) J(x) J(x)表示其无雾图像视图。雾蒙蒙的图像可以表示为:
I ( x ) = J ( x ) t ( x ) + A ( 1 − t ( x ) ) I(x)=J(x) t(x)+A(1-t(x)) I(x)=J(x)t(x)+A(1−t(x))
其中, A A A是全局大气光, t ( x ) t(x) t(x)是介质传输图。此外, t ( x ) t(x) t(x)可以表示为 t ( x ) = e − β d ( x ) t(x)=e^{-\beta d(x)} t(x)=e−βd(x),其中 β \beta β是大气的散射系数, d ( x ) d(x) d(x)是场景深度。早期的图像去雾方法[1,10,15,44]基于先验知识,并使用先验知识来估计 A A A和 t ( x ) t(x) t(x)。虽然这些方法在先验假设下表现良好,但如果先验假设不成立,则恢复的图像可能会失真。
深度学习的发展推动了图像去雾领域的显著进步。现有的去雾方法根据网络架构大致可分为两类:1)基于卷积神经网络(CNN)的方法[3, 30, 25],这些方法主要侧重于增加网络的深度和宽度或使用大型卷积核。大型卷积核[13, 6]可以通过扩展其感受野,在学习的潜在域空间中捕获更多结构化信息。2)基于Transformer的方法[12, 39, 18],这些方法具有全局建模能力和大感受野,但需要大量参数和昂贵的训练过程。
尽管当前方法性能显著,但仍存在两个局限:1)尽管基于CNN和基于Transformer的方法都可以利用大的有效感受野来提高性能,但在去雾过程中总是忽略图像的多尺度特性。每张图像的雾浓度分布都是不均匀的,不同大小的卷积核可以有效地捕获不同尺度的雾分布区域。2)先前去雾网络中使用的注意力机制[30, 40, 3]并不完全适合图像去雾。我们注意到,通道注意力可能能够更好地编码全局共享变量 A A A,而像素注意力可能能够更好地编码位置相关的局部变量 t ( x ) t(x) t(x)。但现有方法[30, 40, 3]只是分别设计了像素注意力模块和通道注意力模块。
为了解决这些问题,我们提出了一种名为MixDehazeNet的新型混合结构块去雾网络,用于图像去雾。该网络以U-net[34]为主干,包含混合结构块,该块结合了多尺度并行大型卷积核模块和增强并行注意力模块。混合结构块是一种Transformer风格的块,它将Transformer中的多头自注意力替换为多尺度并行大型卷积核模块,并将Transformer中的前馈网络替换为增强并行注意力模块。多尺度并行大型卷积核模块(称为MSPLCK)既具有多尺度特性,又具有大感受野。在该模块中,大型卷积关注全局特征并捕获雾浓度显著的区域,而小型卷积关注详细特征并恢复纹理细节。此外,我们还设计了增强并行注意力模块(称为EPA),该模块能够并行地结合通道注意力来提取原始特征的全局共享信息,以及像素注意力来提取原始特征的位置相关局部信息,从而使其能够有效地处理不均匀的雾分布。该模块包括三种注意力机制(简单像素注意力、通道注意力和像素注意力),它们通过多层感知器进行融合。此外,受AECR-Net[40]的启发,我们将对比损失与所提模型相结合以增强性能。与AECR-Net不同的是,MixDehazeNet使用ResNet-152[16]作为对比学习的主干,因为我们发现它在提高我们模型性能方面比VGG19[36]更有效。我们的贡献可以总结如下:
- 我们设计了具有大感受野和多尺度特性的多尺度并行大型卷积核模块。它可以同时恢复纹理细节并捕获大雾区域。并行空洞卷积也具有大感受野和长距离建模能力。
- 我们设计了增强并行注意力模块,该模块能够高效地处理不均匀雾分布,更适合于图像去雾。它可以并行地提取原始特征的共享全局信息和位置相关局部信息。
- 总体而言,所提的MixDehazeNet在多个图像去雾数据集上取得了最先进的结果。图1显示了MixDehazeNet在SOTS室内数据集上与其他最先进模型的比较。据我们所知,MixDehazeNet-L是首个在SOTS室内数据集上超过42dB PSNR的模型。
2. 相关工作
图像去雾是将一幅有雾图像转换为去雾后的图像。图像去雾方法主要分为两类:基于先验的方法和基于学习的方法。最近,大卷积核因其高效性和实用性而变得流行起来。它具有普通卷积核所不具备的大感受野和远距离建模能力。
基于先验的图像去雾:早期的图像去雾方法主要基于先验知识,通过对有雾和无雾图像对的统计分析来发现去雾规则。DCP[15]提出,局部有雾区域的图像通道的最小值总是接近0,并据此估计 t ( x ) t(x) t(x)和 A A A。颜色衰减先验通过对500多幅图像采样,作者得到了一个用于估计 d ( x ) d(x) d(x)的线性公式。秩一先验[21]提出 t ( x ) t(x) t(x)接近于一个秩1矩阵,并采用强度投影策略来估计 t ( x ) t(x) t(x)。基于先验的方法的时间复杂度通常很低,当满足先验条件时,图像复原的结果很好。然而,当不满足先验条件时,图像复原的结果会出现失真。
基于学习的图像去雾:由于深度学习的发展和大型图像去雾数据集的出现,基于深度学习的图像去雾方法取得了很大进展。DehazeNet[2]和MSCNN[32]是早期的图像去雾网络,它们使用神经网络来估计 t ( x ) t(x) t(x),并使用基于先验的方法来估计 A A A。DCPDN[42]分别使用神经网络来估计 A A A和 t ( x ) t(x) t(x)。GridDehazeNet[22]使用网格状神经网络来获取图像的多尺度特征,并直接估计无雾图像。它首次指出,直接估计无雾图像比估计大气散射参数更好。FFA-Net[30]通过使用大量的通道注意力和像素注意力来提高图像去雾的效果。AECR-Net[40]通过引入对比学习来改进图像去雾的效果。PMNet[41]使用一种新颖的可分离混合注意力(SHA)模块和密度图来有效地捕捉特征级别上不均匀分布的退化。UDN[17]使用不确定性估计块(UEB)来预测不确定性,并使用不确定性感知特征调制(UFM)块来增强学习到的特征。由于Transformer在图像高级任务中的出色表现,最近有许多论文在图像去雾任务中使用了Transformer。DeHamer[12]将Transformer和CNN混合,首次将雾密度引入Transformer作为绝对位置嵌入。Dehazeformer[37]参考了Swin Transformer,并修改了Swin Transformer的关键结构,使其更适合图像去雾。基于Transformer的模型具有参数量大、延迟高、训练困难等特点。因此,我们专注于基于CNN的方法,并使用大扩张卷积来获得Transformer所具有的大感受野和远距离建模能力。
大卷积核:RepLKNet[6]提出,使用少量大卷积核代替一堆小卷积核可能是一个更强大的范式。它是一个纯CNN架构,卷积核大小为 31 × 31 31 \times 31 31×31,并指出大卷积核CNN具有更大的有效感受野和更高的形状偏差,而不是纹理偏差。RepLKNet[6]在ImageNet和一些典型的下游任务上取得了与Swin Transformer相当或更优的结果,同时延迟更低。视觉注意力网络[13]提出,大卷积核可以被分为三个部分:空间局部卷积(深度卷积)、空间远距离卷积(深度扩张卷积)和通道卷积( 1 × 1 1 \times 1 1×1卷积),以克服巨大的计算开销和参数量。它在各种视觉任务中超越了相同尺寸的视觉Transformer(ViTs)和卷积神经网络(CNNs)。
3. MixDehazeNet
本节中,我们主要介绍所提出的去雾网络MixDehazeNet,如图2所示。MixDehazeNet是一个嵌入在Mix结构块中的5级U-net,该Mix结构块结合了多尺度并行大卷积核和增强并行注意力。此外,MixDehazeNet使用SK Fusion[37]来融合跳跃分支和主分支。在网络末端,我们使用软重建[37]代替全局残差,因为软重建提供了比全局残差更强的去雾约束。
3.1. 多尺度并行大卷积核
多尺度并行大卷积核模块(MSPLCK)具有多尺度特性和大感受野。首先,设 x x x为原始特征图,我们使用BatchNorm对其进行归一化,得到 x ^ = Batch Norm ( x ) \widehat{x}=\operatorname{Batch} \operatorname{Norm}(x) x =BatchNorm(x)。BatchNorm可以加速网络收敛,提高泛化能力,防止过拟合。
x 1 = P W Conv ( x ^ ) , x 2 = Conv ( x 1 ) , x 3 = Concat ( D W D Conv 19 ( x 2 ) , D W D Conv 13 ( x 2 ) , D W D Conv 7 ( x 2 ) ) \begin{aligned} x_1 &= PW \operatorname{Conv}(\widehat{x}), \\ x_2 &= \operatorname{Conv}(x_1), \\ x_3 &= \operatorname{Concat}(DWD\operatorname{Conv}19(x_2), \\ & \quad \quad DWD\operatorname{Conv}13(x_2), \\ & \quad \quad DWD\operatorname{Conv}7(x_2)) \end{aligned} x1x2x3=PWConv(x ),=Conv(x1),=Concat(DWDConv19(x2),DWDConv13(x2),DWDConv7(x2))
这里,PWConv表示逐点卷积。Conv表示卷积,卷积核大小 = 5 =5 =5。DWDConv19表示膨胀卷积核大小 = 19 =19 =19,它是 7 × 7 7 \times 7 7×7的深度膨胀卷积,膨胀率为3;DWDConv13表示膨胀卷积核大小 = 13 =13 =13,它是 5 × 5 5 \times 5 5×5的深度膨胀卷积,膨胀率为3;DWDConv7表示膨胀卷积核大小 = 7 =7 =7,它是 3 × 3 3 \times 3 3×3的深度膨胀卷积,膨胀率为3。最后,Concat表示在通道维度上拼接特征。
三个并行膨胀卷积使用不同大小的卷积核可以提取多尺度特征。大和中尺寸的膨胀卷积具有远距离建模和大感受野的特性,类似于Transformer中的自注意力,它们可以关注大的雾区。小尺寸的膨胀卷积可以关注小的雾区并恢复纹理细节。我们在通道维度上拼接多尺度信息, x 3 x_3 x3的特征维度变为 x x x的三倍。
y = x + P W Conv ( G E L U ( P W Conv ( x 3 ) ) ) y=x+PW \operatorname{Conv}(GELU(PW \operatorname{Conv}(x_3))) y=x+PWConv(GELU(PWConv(x3)))
然后,我们将 x 3 x_3 x3输入到一个多层感知器中,该感知器将 x 3 x_3 x3的特征维度转换为与 x x x相同。多层感知器包含两个逐点卷积,并使用GELU作为激活函数。最后,多层感知器的输出与恒等快捷连接 x x x相加。我们认为多层感知器不仅可以融合三种不同类型的特征,还能在去雾特征拟合中发挥作用。
3.2. 增强并行注意力
增强并行注意力模块(EPA)混合了不同类型的注意力机制。它包含一个简单像素注意力、一个通道注意力和一个像素注意力。设 x x x为特征图,我们使用BatchNorm对其进行归一化,得到 x ^ = Batch Norm ( x ) \widehat{x}=\operatorname{Batch} \operatorname{Norm}(x) x =BatchNorm(x)。
像素注意力可以有效地提取位置相关的信息特征,例如图像中不同位置的雾分布。简单像素注意力模块包含两个分支: P F s P F_{s} PFs和 P A s P A_{s} PAs,如图4(a)所示。 P F s P F_{s} PFs是特征提取分支, P A s P A_{s} PAs是像素门控分支。我们将 P A s P A_{s} PAs用作 P F s P F_{s} PFs的像素门控信号。
P F s = Conv ( P W Conv ( x ^ ) ) P A s = Sigmoid ( P W Conv ( x ^ ) ) , F s = P F s ⊗ P A s \begin{aligned} P F_{s} &= \operatorname{Conv}(PW \operatorname{Conv}(\hat{x})) \\ P A_{s} &= \operatorname{Sigmoid}(PW \operatorname{Conv}(\hat{x})), \\ F_{s} &= P F_{s} \otimes P A_{s} \end{aligned} PFsPAsFs=Conv(PWConv(x^))=Sigmoid(PWConv(x^)),=PFs⊗PAs
PWConv表示逐点卷积,Conv表示卷积,卷积核大小 = 3 =3 =3。像素注意力包含 P A p P A_{p} PAp分支,可以提取全局像素门控特征,如图4©所示。
P A p = Sigmoid ( P W Conv ( G E L U ( P W Conv ( x ^ ) ) ) ) , F p = x ^ ⊗ P A p . \begin{aligned} P A_{p} &= \operatorname{Sigmoid}(PW \operatorname{Conv}(GELU(PW \operatorname{Conv}(\hat{x})))), \\ F_{p} &= \hat{x} \otimes P A_{p} . \end{aligned} PApFp=Sigmoid(PWConv(GELU(PWConv(x^)))),=x^⊗PAp.
这里我们使用PWConv-GELU-PWConv来拟合特征。Sigmoid函数用于提取全局像素门控特征。然后使用 P A p P A_{p} PAp作为 x ^ \hat{x} x^的全局像素门控信号。
通道注意力可以有效地提取全局信息并改变特征的通道维度。通道注意力有一个 C A c C A_{c} CAc分支,可以提取整个通道的特征,如图4(b)所示。
C A c = Sigmoid ( P W Conv ( G E L U ( P W Conv ( GAP ( x ^ ) ) ) ) ) , F c = x ^ ⊗ C A c . \begin{array}{l} C A_{c} = \operatorname{Sigmoid}(PW \operatorname{Conv}(GELU(PW \operatorname{Conv}(\operatorname{GAP}(\hat{x}))))), \\ F_{c} = \hat{x} \otimes C A_{c} . \end{array} CAc=Sigmoid(PWConv(GELU(PWConv(GAP(x^))))),Fc=x^⊗CAc.
我们使用全局平均池化(GAP)、PWConv-GELUPWConv和Sigmoid函数来提取全局通道门控特征。然后我们使用 C A c C A_{c} CAc作为 x ^ \hat{x} x^的全局通道门控信号。
F = Concat ( F s , F c , F p ) y = x + P W Conv ( G E L U ( P W Conv ( F ) ) ) \begin{aligned} F &= \operatorname{Concat}\left(F_{s}, F_{c}, F_{p}\right) \\ y &= x+PW \operatorname{Conv}(GELU(PW \operatorname{Conv}(F))) \end{aligned} Fy=Concat(Fs,Fc,Fp)=x+PWConv(GELU(PWConv(F)))
我们在通道维度上拼接三种不同的注意力门控结果。然后应用一个具有PWConv-GELU-PWConv的多层感知器(MLP),将拼接后的特征通道维度降低到与输入 x x x相同的维度。最后,MLP的输出与恒等快捷连接 x ^ \hat{x} x^相加。
增强并行注意力模块更适合于图像去雾。大气光 A A A是一个共享的全局变量,而 t ( x ) t(x) t(x)是一个位置依赖的局部变量。通道注意力可以更好地提取共享的全局信息并对 A A A进行编码。像素注意力可以更好地提取位置依赖信息并对 t ( x ) t(x) t(x)进行编码。我们认为,通过同时从原始特征中提取位置依赖信息和共享全局信息,可以实现注意力机制的全局优化。然而,当两种不同的注意力机制串联使用时,在通道注意力通过提取全局信息修改原始特征后,像素注意力再提取修改后特征的位置依赖信息,此时并未达到全局最优条件。为了使增强注意力模块能够同时提取原始特征中的共享全局变量和位置依赖的局部变量,我们并行了三个不同的注意力模块。基于并行编码原始特征的 A A A和 t ( x ) t(x) t(x),将三个独立的注意力结果拼接以获得组合特征 F F F,然后通过多层感知器融合组合特征 F F F,我们认为这种并行模块可以更好地去除模糊特征。
3.3. 混合结构块
图3展示了混合结构块,它是一种包含多尺度并行大卷积核模块和增强并行注意力模块的Transformer风格模块。多尺度并行大卷积核模块用于获取图像的多尺度特征,这是单个Transformer[9, 23]多头自注意力模块所不具备的。增强并行注意力模块可以高效地处理不均匀的模糊分布,这是单个Transformer[9, 23]前馈模块所不具备的。多尺度并行大卷积核模块可以同时捕获大范围的模糊区域并恢复纹理细节。增强并行注意力模块可以并行提取原始特征的共享全局信息和位置依赖的局部信息。所提出的包含混合结构块的MixDehazeNet在多个图像去雾数据集上取得了最先进的成果。
3.4. 训练损失
给定图像对 I , J I, J I,J,其中 I I I是模糊图像, J J J是对应的清晰图像,我们让MixDehazeNet预测去雾后的图像 J ^ \widehat{J} J 。我们使用 L 1 L_{1} L1损失和对比损失来训练我们的模型,可以表示为:
min ∥ J − J ^ ∥ 1 + β ∑ i = 0 n ω i ⋅ D ( R i ( J ) , R i ( J ^ ) ) D ( R i ( I ) , R i ( J ^ ) ) \min \|J-\widehat{J}\|_{1}+\beta \sum_{i=0}^{n} \omega_{i} \cdot \frac{D\left(R_{i}(J), R_{i}(\widehat{J})\right)}{D\left(R_{i}(I), R_{i}(\widehat{J})\right)} min∥J−J ∥1+β∑i=0nωi⋅D(Ri(I),Ri(J ))D(Ri(J),Ri(J ))
其中, R i , i = 1 , 2 , ⋯ , n R_{i}, i=1,2, \cdots, n Ri,i=1,2,⋯,n从固定的预训练模型中提取第 i i i层特征。 D ( x , y ) D(x, y) D(x,y)是 L 1 L_{1} L1损失。 ω i \omega_{i} ωi是一个权重系数。 β \beta β是平衡 L 1 L_{1} L1损失和对比学习损失的超参数。
4. 实验
4.1. 数据集
我们在RESIDE [20]、RESIDE6K数据集上评估了我们的方法。RESIDE[20]是最标准的图像去雾数据集。RESIDE数据集包含RESIDE-IN(ITS)、RESIDE-OUT(OTS)和合成目标测试任务(SOTS)。RESIDE-6K数据集包含来自ITS和OTS的室内和室外场景合成图像的混合。
- 我们在包含13,990对图像的RESIDE-IN数据集上训练了我们的模型,并在SOTS的室内集(500对图像)上进行了测试。MixDehazeNet在ITS上训练了500个周期。
- 我们在包含313,950对图像的RESIDE-OUT数据集上训练了我们的模型,并在SOTS的室外集(500对图像)上进行了测试。MixDehazeNet在OTS上训练了40个周期。
- RESIDE-6K数据集包含6,000对图像,其中3,000对ITS图像和3,000对OTS图像用于训练,剩余的1,000对混合室内和室外图像用于测试。我们使用了来自DA [35]的实验设置,并在RESIDE-6K上对MixDehazeNet进行了1000个周期的训练。
4.2. 实施细节
我们使用4张RTX-3090显卡来训练我们的模型。在训练过程中,图像被随机裁剪为 256 × 256 256 \times 256 256×256大小的图像块。我们提供了三种MixDehazeNet变体(分别为小型、基础型和大型,标记为 − S -\mathrm{S} −S、 − B -\mathrm{B} −B、 − L -L −L)。表2列出了这些变体的详细配置。我们从固定的预训练Resnet-152中提取了第11、35、143、152层的隐藏特征,以及它们对应的系数 ω i , i = 1 , ⋯ , 4 \omega_{i}, i=1, \cdots, 4 ωi,i=1,⋯,4,分别为 1 16 \frac{1}{16} 161、 1 8 \frac{1}{8} 81、 1 4 \frac{1}{4} 41、1。我们将超参数 β \beta β设置为0.1。我们使用AdamW优化器来优化我们的MixDehazeNet,其中指数衰减率 β 1 \beta_{1} β1和 β 2 \beta_{2} β2分别设置为0.9和0.999。我们将初始学习率设置为 2 × 1 0 − 4 2 \times 10^{-4} 2×10−4,该学习率使用余弦退火策略从初始值逐渐降低到 2 × 1 0 − 6 2 \times 10^{-6} 2×10−6。
4.3. 与最先进方法的比较
定量分析:我们将MixDehazeNet的性能与以前的最先进方法进行了比较,结果如表1所示。我们的模型在所有三个数据集上都优于所有以前的方法。在RESIDE-IN数据集中,我们的MixDehazeNet-L模型是第一个超过42 dB PSNR的方法,并且在PSNR和SSIM方面都大幅优于所有以前的最先进方法。在RESIDE-OUT和RESIDE6K数据集中,我们的MixDehazeNet-L模型在PSNR和SSIM方面也优于所有以前的最先进方法。我们的不同模型变体表现出了出色的性能,随着混合结构块数量的增加,PSNR也随之提高。我们相信我们的方法可以适应不同类型的计算机视觉任务。MixDehazeNet-S可以应用于实时图像去雾,而MixDehazeNet-L可以应用于对清晰度要求更高的图像去雾任务。
定性分析:图5展示了我们的MixDehazeNet与RESIDE-IN数据集上以前的最先进模型相比的视觉结果。由DCP [42]、GridDehazeNet [22]和FFA-Net [30]生成的恢复图像都包含不同程度的伪影,降低了图像的清晰度。相比之下,我们的模型恢复的图像最清晰,最接近真实图像,且没有任何伪影。同样,图6展示了我们的MixDehazeNet与RESIDE-OUT数据集上以前的最先进模型相比的视觉结果。由于先验知识不满足,DCP [42]恢复的图像存在颜色失真。GridDehazeNet [22]和FFA-Net [30]都有更多的雾残留,且恢复图像中残留雾的分布不均匀。相比之下,我们的模型恢复的图像更清晰,雾残留更少,边缘轮廓更锐利,最接近真实图像。图中的红色矩形突出了每个模型生成的恢复图像在细节上的差异。
4.4. 消融研究
为了了解每个提出模块的作用,我们在MixDehazeNet-S模型上进行了消融实验。我们从MixDehazeNet-S-Base开始。
(1) MixDehazeNet-SBase中的每个Mix结构块在多尺度并行大卷积核(MSPLCK)中保留了DWDConv19(移除了DWDConv7和DWDConv13),在增强并行注意力(EPA)中保留了通道注意力(移除了简单像素注意力和像素注意力)。(2) 我们只在MixDehazeNet-S-Base中恢复了MSPLCK。(3) 我们只在MixDehazeNet-S-Base中恢复了EPA。(4) 我们在MixDehazeNet-S-Base中恢复了MSPLCK和EPA。然后,我们将对比损失(CR)添加到整个模型中。所有消融模型的训练配置都与MixDehazeNet-S相同,并在RESIDE-IN数据集上进行了实验。消融研究的结果如表3所示。与MixDehazeNet-S-Base相比,MSPLCK可以提高1.76 dB的PSNR。与MixDehazeNet-S-Base相比,EPA可以提高1.89 dB的PSNR。结合了MSPLCK和EPA的Mix结构块相比MixDehazeNet-S-Base可以提高3.96 dB的PSNR。结果表明,每个提出的模块都可以提高模型的去雾性能。
为了进一步验证两个提出模块的作用,我们进行了两组消融实验。为了加快实验速度,我们提出了一个具有简化架构的模型小型版本,详细情况如表4所示,并将训练周期减少到400个。学习率使用余弦退火策略从 4 × 1 0 − 4 4 \times 10^{-4} 4×10−4设置到 4 × 1 0 − 6 4 \times 10^{-6} 4×10−6。
多尺度并行大卷积核:为了验证MSPLCK的多尺度特性和大感受野,我们使用了具有相同尺度并行大卷积核的三组对比实验。首先,我们将MSPLCK中的多尺度膨胀卷积替换为三个并行DWDConv7,其膨胀卷积核大小为7,是 3 × 3 3 \times 3 3×3深度膨胀卷积,膨胀率为3。其次,我们将MSPLCK中的多尺度膨胀卷积替换为三个并行DWDConv13,其膨胀卷积核大小为13,是 5 × 5 5 \times 5 5×5深度膨胀卷积,膨胀率为3。最后,我们将MSPLCK中的多尺度膨胀卷积替换为三个并行DWDConv19,其膨胀卷积核大小为19,是 7 × 7 7 \times 7 7×7深度膨胀卷积,膨胀率为3。表5显示了实验结果,具有多尺度特性的MSPLCK比其他相同尺度并行大卷积核的效果更好。卷积核的感受野越大,去雾效果越好。
增强并行注意力:为了验证并行注意力是否更适合图像去雾,我们进行了两组对比实验,以比较串行注意力和并行注意力之间的效果。首先,我们将增强并行注意力(EPA)中的三个并行注意力替换为串行的通道注意力(CA)和像素注意力(PA),然后我们将EPA中的三个并行注意力替换为简单的像素注意力(SPA)、串行的通道注意力(CA)和像素注意力(PA)。表6显示了实验结果,表明并行注意力机制比串行注意力机制更适合图像去雾。
4.5 推理时间
在表1中,我们还比较了我们的模型与之前最先进的模型的推理速度。我们的模型在保持相似的推理时间的同时,性能显著提高。例如,在RESIDE-IN数据集上,MixDehazeNet-S和MSBDN[7]的推理时间相近,约为14毫秒,但MixDehazeNet-S的峰值信噪比(PSNR)比MSBDN提高了5.8分贝。MixDehazeNet-B与AECR-Net[40]和PMNet[41]的推理时间相近,约为28毫秒,但MixDehazeNet-B的PSNR分别比AECR-Net和PMNet提高了3.37分贝和2.49分贝。MixDehazeNet-L和FFA-Net[30]的推理时间相近,为56毫秒,但MixDehazeNet-L的PSNR比FFA-Net提高了6.23分贝。
5. 结论
在本文中,我们提出了MixDehazeNet,它包含由多尺度并行大卷积核模块和增强并行注意力模块组成的混合结构块。多尺度并行大卷积核用于实现多尺度大感受野。增强并行注意力有效地处理了雾分布不均匀的问题,并允许有用特征通过主干网络传递。据我们所知,我们的方法是第一个在RESIDE-IN数据集上超过42分贝PSNR的方法。