论文阅读（二十六）：Dual Attention Network for Scene Segmentation

文章目录

1.Introduction
3.DANet
- 3.1Position Attention Module
- 3.2Channel Attention Module

论文：Dual Attention Network for Scene Segmentation
论文链接：Dual Attention Network for Scene Segmentation
代码链接：Github

1.Introduction

语义分割的目的在于将场景图像分割和解析为与语义类别相关的不同图像区域，包括事物（例如天空、道路、草地）和离散对象（例如人、汽车、自行车）。本文提出了一种双注意力网络 $D A N e t （ D u a l A tt e n t i o n N e tw or k f or S ce n e S e g m e n t a t i o n ）$ ，分别捕获空间和通道维度的特征依赖关系。具体来说，本研究在FCN上增加了位置注意力模块、空间注意力模块共两个并行的注意力模块：

位置注意力模块：引入了自注意力机制来捕获特征图的任意两个位置之间的空间依赖关系。对于某个位置的特征，它是通过加权求和聚合所有位置的特征来更新的，其中权重由相应两个位置之间的特征相似性决定。即，任何两个具有相似特征的位置都可以促进相互改进，无论它们在空间维度上的距离如何。
通道注意力模块：使用类似的自注意力机制来捕获任意两个通道映射之间的通道依赖关系，并使用所有通道映射的加权和更新每个通道映射。

最后将这两个注意力模块的输出融合在一起，以进一步增强特征表示。
本研究的贡献如下：

1.提出双注意力网络 $D A N e t （ D u a l A tt e n t i o n N e tw or k f or S ce n e S e g m e n t a t i o n ）$ ，以增强特征表示对场景分割的判别能力。
2.提出了一个位置注意力模块来学习特征的空间相互依赖性，并设计了一个通道注意力模块来模拟通道相互依赖性。二者通过局部特征的丰富上下文依赖关系进行建模，显著改善了分割结果。

3.DANet

在这里插入图片描述
本文共设计了两种类型的注意力模块，为更方便展示模块的效果，设计了一个以ResNet为主干架构的网络模型。其中，作为编码器的ResNet中删除了下采样操作并在最后两个ResNet模块中使用了膨胀卷积，从而将最终特征图大小的大小缩小到到输入图像的 $\frac{1}{8}$ 。之后将其输入到两个并行的注意力模块中。

3.1Position Attention Module

在这里插入图片描述
位置注意力模块将更广泛的上下文信息编码为局部特征，从而增强它们的表示能力，本研究中的位置注意力模块通过矩阵乘法实现细节增强。两个特征的乘积可以揭示两个特征共存的重要信息，有利于协同识别对象。而两个特征的求和可以全面地捕捉两个特征所包含的信息。给定特征图 $A∈R^{C×H×W}$ ，通过卷积操作生成新的特征图 $B、C∈R^{C×H×W}$ 。之后将二者重塑为大小 $R^{C×N},N=H×W(像素个数)$ ，并将B转置后与C执行矩阵乘法，再使用 $so f t ma x$ 生成空间注意力图，大小为 $N \times N = (H \times W) \times (H \times W)$ ：
在这里插入图片描述
以 $s_{ji}$ 衡量第i个位置对第j个位置的影响，两个位置的特征表示越相似，它们之间的相关性越大，注意力图对应位置的权重就越大。将A经过卷积运算得到特征图 $D∈R^{C×H×W}$ 并重塑为 $R^{C×N}$ ，将其与注意力图相乘并重塑为大小 $R^{C×H×W}$ 。最后将其乘以可学习权重 $α$ 并与A残差连接得到输出 $E∈R^{C×H×W}$ ：
在这里插入图片描述
每个位置的生成特征 $E∈R^{C×H×W}$ 是所有位置和原始特征的特征的加权和。因此，它具有全局上下文视图，并根据空间注意力图选择性地聚合上下文。

3.2Channel Attention Module

在这里插入图片描述
每个高级特征的通道图都可以看作是一个特征二维大小的响应，不同的特征之间是相互关联的，此时可通过利用每个通道方向的二维矩阵来对特征之间的依赖关系进行建模，并生成相应的通道注意力图。本研究构建了一个通道注意力模块来显式实现该建模操作。
如上图所示，不对原始特征 $A∈R^{C×H×W}$ 进行卷积操作，而是直接重塑为大小 $R^{C×N},N=H×W(像素个数)$ ，并将其与自身的转置进行矩阵乘法运算，再通过 $so f t ma x$ 获得通道注意力图 $X∈R^{C×C}$ 。
在这里插入图片描述
以 $x_{ji}$ 衡量第i个通道对第j个通道的影响，两个通道的特征表示越相似，它们之间的相关性越大，注意力图对应位置的权重就越大。将A的转置与注意力图相乘并重塑为大小 $R^{C×H×W}$ 。最后将其乘以可学习权重 $β$ 并与A残差连接得到输出 $E∈R^{C×H×W}$ ：
在这里插入图片描述
注意，在计算两个通道的关系之前并没有使用卷积层来嵌入特征，因为这样维护不同通道之间的关系。