摘要

心脏磁共振成像(MRI)的自动分割促进了临床应用中高效、准确的体积测量。然而，由于分辨率各向异性和边界模糊(如右心室心内膜)，现有方法在心脏MRI三维视频分割中存在准确性和鲁棒性下降的问题。在本文中，我们提出了一种新的可变形U-Net (DeUNet)来充分利用3D心脏MRI视频的时空信息，包括一个时间可变形聚合模块(TDAM)和一个可变形全局位置注意(DGPA)网络。首先，TDAM以心脏MRI视频片段作为输入，并通过偏移预测网络提取时间信息。然后通过时间聚合可变形卷积对提取的时间信息进行融合，生成融合特征图。此外，为了聚合有意义的特征，我们采用可变形注意力U-Net设计了DGPA网络，该网络可以将更大范围的多维上下文信息编码为全局和局部特征。实验结果表明，我们的DeU-Net在常用的评估指标上达到了最先进的性能，特别是在心脏边缘信息(ASSD和HD)方面。

背景

在本文中，我们提出了一种新的变形U-Net (DeU-Net)来解决上述问题，通过充分利用三维心脏MRI视频的时空信息并聚合时间信息来提高分割性能。DeU-Net由两个部分组成:时间变形聚合模块(TDAM)和可变形全局位置注意网络(DGPA)。为了解决[13,14]中RV的部分体积效应，TDAM利用MRI视频片段的时空信息，通过时间聚合可变形卷积产生融合的特征图。为了解决[6]中的细微结构问题，基于U-Net的DGPA网络将更广泛的多维上下文信息联合编码为全局和局部特征，保证了每个分割图的边界清晰连续。定量和定性的实验结果表明，我们的建议在常用的指标上达到了最先进的性能，特别是对于心脏边缘信息(ASSD和HD)。

方法

DeU-Net的架构如图1所示，包括一个时态可变形聚合模块(TDAM)和一个可变形全球位置注意(DGPA)网络。提出的TDAM包括两个阶段:一个是时间可变形卷积，另一个是基于U-Net的偏移量预测网络，用于预测可变形偏移量。将TDAM产生的融合特征输入到DGPA中，得到最终的分割结果。同样以U-Net为骨干的DGPA网络为编码器引入了可变形卷积，并利用可变形注意块来增加空间采样位置。

Temporal Deformable Aggregation Module(TDAM)

许多现有的方法设计了非常复杂的神经网络来实现性能增益。然而，大多数方法忽略了3D MRI视频的时空信息，并将每一帧视为一个单独的对象，从而导致性能下降。此外，在数据采样过程中，由于心脏边界的快速变化和规则的卷积，可能会丢失视频片段的各种语义细节，不可避免地会扭曲视频局部细节和帧之间逐像素的连接。因此，我们提出了一个时间变形聚合模块(TDAM)来自适应地提取图像解释的时间信息(运动场)。

提出的TDAM以目标帧及其相邻参考帧作为输入，共同预测偏移场。然后，通过时间聚合可变形卷积将增强的上下文信息融合到目标帧中。

我这里先略写一下因为我主要要看的部分是DGPA...后面再补吧

Deformable Global Position Attention(DGPA)

正则卷积受核大小和固定几何结构的限制，在几何变换建模中性能有限。在实践中，由于心脏实例之间的边界不明确，很难减少假阳性预测。

为了解决这些问题，我们提出了一个可变形的全球位置注意(DGPA)网络来捕获足够大的接受野和语义全球上下文信息。DGPA通过额外的偏移量来增加模块中的空间采样位置，这是为了模拟复杂的几何变换。因此，可以收集远程上下文信息，这有助于获得更具辨别性的心脏边界，用于像素级预测。

如图1所示，将融合的局部特征I 2 R NXHXW作为DGPA块的输入，其中N表示输入通道数，H和W分别表示输入特征的高度和宽度。(到时候再对比一下Deformable Conv原论文中插入的位置好了）

我们首先为输入特征I提供一个3X3可变形的卷积层来捕获心脏的几何信息。公式如下:

其中是特征图，

K是可变形卷积核，l是卷积核大小，δ’是deformable offset

将输入特征映射重构为三个新的特征映射B，C，D ∈ R NXM

式中M为像素数(M = HXW)。

为了利用心脏边界的高级特征，在B和c的转置之间进行点积，然后将结果应用到softmax层中计算注意力图P∈ R NXN↓ 其中pji表示第i个像素对第j个像素的影响。两个像素的特征表示越相似，表明它们之间的相关性越强。

然后我们在P和D的转置之间进行矩阵乘法，将结果重塑为R NXHXW。

最后，对变形块中的特征映射O进行逐元素求和运算，得到输出特征Z ∈ R NXHXW如下:

式中α为属于位置亲和矩阵（position affinity matrix）的尺度参数。Z中的每个元素是全局特征的加权和，并选择性地聚合输入特征i。计算特征映射的远程依赖关系，以提高类内紧凑性和语义一致性。

实验

设备是NVIDIA GTX 1080Ti GPU。对于训练集，进一步使用标准数据增强(即镜像、轴向翻转或旋转)来更好地利用训练样本。我们使用Adam优化器来更新网络参数。初始学习率设置为2 10􀀀4，权值衰减为1 10􀀀4。我们使用的批量大小至少为12。设公式1中的参考帧数r为1。如果骰子分数没有增加20次，训练将停止。在我们的实验中，我们进行了5次交叉验证。