文章目录

Medical Image Segmentation Review:The Success of U-Net
- 摘要
- 引言
- 分类法
- - 2D Unet
  - 3D U-Net
  - U-Ne的临床意义和疗效
- Unet扩展
- - 跳过连接增强
  - - Increasing the Number of Skip Connections
    - 在跳过连接中处理特征映射
    - 编码器和解码器特征映射的组合
  - Backbone Design Enhancements
  - - Residual Backbone
    - 多分辨率块
    - Re-considering Convolution
    - Recurrent Architecture
  - Bottleneck Enhancements
  - - Attention Modules
    - Multi-Scale Representation
  - Transformers
  - - Transformer Complement to CNN-based U-Net
    - Standalone T ransformer Backbone for U-Net Designs
  - Rich Representation Enhancements
  - - 多尺度融合
    - 多模态融合
    - 利用深度信息
  - 概率设计
  - - Variational Auto Encoder (VAE) Regularization
    - 图模型算法
- 总览
- 定量评估

Medical Image Segmentation Review:The Success of U-Net

摘要

论文地址
代码地址
医学图像自动分割是医学领域的一个重要课题，也是计算机辅助诊断范式的一个重要对应。U-Net是最广泛的图像分割架构，由于其灵活性，优化的模块化设计，并在所有医学图像模式的成功。多年来，U-Net模型得到了学术界和工业界研究人员的极大关注。该网络的几个扩展已经被提出，以解决医疗任务所产生的规模和复杂性。解决朴素U-Net模型的缺陷是供应商为其业务使用适当的U-Net变体模型的首要步骤。在一个地方拥有不同变体的概要可以使构建者更容易识别相关的研究。此外，对于ML研究人员来说，这将帮助他们理解挑战模型的生物任务的挑战。为了解决这个问题，讨论了U-Net模型的实际方面，并建议对每个网络变体进行分类。此外，为了衡量这些策略在临床应用中的表现，我们建议在知名数据集上对一些独特和著名的设计进行公平的评估。提供了一个全面的实现库，为未来的研究提供了训练有素的模型。

引言

分割，定义为将整个图像划分为一组区域，在广泛的应用中起着至关重要的作用。医学图像分割是这一领域的一个重要例子，为临床使用提供了许多好处。自动分割简化了数据处理时间，并通过提供特定任务的可视化和测量来指导临床医生。在几乎所有的临床应用中，可视化算法不仅提供了对人体组织异常区域的洞察，而且还指导从业者监测癌症进展。语义分割作为自动图像处理技术的准备步骤，可以通过建模来检测与手头任务更相关的特定区域(例如，心脏分割)，从而进一步提高可视化质量。

图像分割任务可以分为两类:语义分割和实例分割。语义分割是一种像素级的分类，为图像中的所有像素分配相应的类别，而实例分割也需要基于语义分割来识别同一类别内的不同对象。设计分割方法来区分器官或病变像素需要特定任务的图像数据来提供适当的关键细节。用于获取数据的常见医学成像方式有x射线、正电子发射断层扫描(PET)、计算机断层扫描(CT)、磁共振成像(MRI)和超声(US)。早期传统的医学图像分割方法主要集中在边缘检测、模板匹配技术、区域生长、图切割、活动轮廓线、机器学习和其他数学方法。近年来，深度学习在不同领域已经成熟，可以解决医疗领域特有的许多边缘案例。

卷积神经网络(Convolutional neural networks, cnn)成功地实现了图像的特征表示提取，从而在图像分割中不再需要手工制作特征，其优异的性能和准确性使其成为该领域的主要选择。

使用深度神经网络对语义分割建模的初步尝试。该方法将输入图像通过卷积编码器来产生潜在的表示。然后在生成的特征映射之上，包括全连接层，以产生像素级预测。这种架构的主要限制是使用完全连接的层，这耗尽了空间信息，从而降低了整体性能。提出了全卷积网络(FCNs)来解决这种缺陷。FCN结构在编码器路径上应用由卷积、激活和池化层组成的几个卷积块来捕获语义表示，并类似地使用卷积层以及解码路径中的上采样操作来提供像素级预测。解码路径上连续的上采样过程的主要动机是逐渐增加空间维度以获得细粒度分割结果。

受FCNs架构和编码器解码器模型的启发，Ronneberger等人开发了用于生物医学图像分割的U-Net模型。它是为医学图像分析的实际使用量身定制的，可以应用于各种模式，包括CT， MRI ， US， x射线，光学相干断层扫描(OCT)

U-Net的自编码器设计使其成为在重要应用中打破其结构的独特工具，例如图像合成，图像去噪，图像重建，和图像超分辨率。为了更深入地了解U-Net模型在医学领域的重要性，我们提供了图1，关于在其管道中使用U-Net模型来解决医学图像分析挑战的方法的统计信息。从图1中可以明显看出，U-Net影响了医学图像分析领域中大多数不同的分割任务，在过去十年中，发表数量急剧增长，并被指定为未来的补救措施。

我们的综述涵盖了最新的基于u - net的医学图像分割文献，并讨论了在2022年9月之前提出的一百多种方法。我们对不同方面进行了广泛的回顾和阐述这些方法，包括关于原生U-Net的网络架构增强、医学图像数据模式、损失函数、评估指标及其关键贡献。根据UNet及其变体的快速发展，我们提出了在我们的分类学中被高度引用的方法的总结。我们将U-Net变体分为以下类别:

跳过连接增强
主干设计增强
bottleneck增强
transformers
丰富表示增强
概率设计
这篇综述涵盖了关于U-Net及其变体用于医学图像分割问题的最新文献，并概述了截至2022年9月提出的100多种分割算法，分为六类。
我们对基于U-Net的算法的不同方面进行了全面的回顾和深刻的分析，包括基础U-Net架构的改进，训练数据模态，损失函数，评估指标及其关键贡献。

分类法

该分类法组织了文献中提出的不同方法，以修改U-Net架构，用于医学图像分割。由于U-Net的模块化设计，我们提出了我们的分类法来处理U-Net的继承设计。此外，这种性质使得很难将每一项研究仅归入一个组，从而使一种方法可能属于几个组。图2描述了我们的分类法结构，我们认为这种分类法有助于该领域的组织，甚至为未来的研究提供动力。在第3节中，我们将讨论分类法的每个概念。在本节的剩余部分，我们将首先解释朴素的2D U-Net，然后介绍3D U-Net。最后，我们将从临床角度阐述U-Net模型的重要性
在这里插入图片描述

2D Unet

在更详细地概括U-Net结构之前，我们将首先考虑通往U-Net架构的路径。故事始于2012年的EM分割挑战，Ciresean等人是第一个使用卷积层优于之前生物医学成像分割方法的研究人员。
他们能够赢得挑战的关键因素是大量带注释的数据的可用性(CNN在大型数据集上的学习能力相对优于经典的机器学习方法）。然而，由于隐私问题、注释过程的复杂性、专家技能要求以及使用生物医学成像系统拍摄图像的高价格，在生物医学任务中访问大量注释数据始终具有固有的挑战性。减轻对大型注释数据需求的第一步是在中提出的。该方法采用图像修补技术，不仅可以增加样本数量，而且可以用小补丁对数据分布进行建模。使用这种技术，CNN网络通过简单地部署一个滑动窗口来学习视觉概念。然而，滑动窗口带来的计算负担往往大于其性能的提升。因此，在性能和计算复杂度之间总是有一个权衡

2015年，Ronnebreger等人结合ISBI细胞跟踪挑战赛，针对Long等人的FCN框架提出了新的架构，并以较大优势赢得比赛。图3显示了U-Net模型的结构。他们提出的方法是目前一些的基石。首先，它基于一个编码器-解码器设计中的完全卷积网络，与DNNs直觉的数据不足相比，具有一些直观的数据增强技术。其次，他们的模型相当快，在测试中优于其他方法。模型体系结构可以分为两部分:第一部分是收缩路径，也称为编码器路径，其目的是捕获上下文信息。该路径由重复的块组成，其中每个块包含两个连续的3 × 3卷积，后面是一个ReLU激活函数和最大池化层。还包括最大池化层，以逐渐增加网络的接受场，而不增加额外的计算负担。

第二部分是扩展路径，也称为解码器路径，它的目标是逐渐向上采样特征映射到所需的分辨率。该路径包括一个2 × 2转置卷积层(上采样)，然后是两个连续的3 × 3卷积和一个ReLU激活。编码器和解码器路径之间的连接路径(也称为瓶颈)包括两个连续的3×3卷积，后面跟着一个ReLU激活。
在这里插入图片描述

UNet模型中包含的连续卷积运算使网络的接受场大小线性增加。这一过程使得网络在深层相对于浅层逐渐学习粗糙的上下文和语义表示。学习高级语义特征会使网络慢慢失去提取特征的本地化，这方面对于重建分割结果至关重要。Ronnebreger等人在相同的尺度上提出了从编码器路径到解码器路径的跳过连接来克服这一挑战。这些跳过连接存在的原因是将所提取的语义特征在同一阶段的定位信息强加于编码器。为此，连接模块将来自编码器路径的低级特征与来自解码路径的高级表示连接起来，以丰富定位信息。最后，该网络使用1 × 1卷积将最终表示映射到所需的类数量。为了减轻缺失图像边界像素中上下文信息的损失，U-Net模型使用了重叠策略。

此外，针对训练数据不足的问题，采用了旋转、灰度强度不变性、弹性变形等典型的数据增强技术。

值得注意的是，弹性变形是使模型抵抗变形的常用策略，变形是组织中常见的变异。从实际的角度来看，在EM分割挑战数据集中，原始U-Net模型在扭曲误差术语方面优于滑动窗口卷积网络。该网络在其他两个细胞分割数据集(PhC-U373和DIC-Hela细胞)上也成为了最新的技术，在2015年ISBI细胞T支架挑战赛中，通过报告交集超过联合(IoU)度量，与之前的最佳方法相比，分别提高了约9%和31%。

3D U-Net

由于体数据的丰富性和表示能力，大多数医学图像形式是三维的。因此，C ehic ek等人提出了一种基于3D体积的U-Net，不仅关注这一需求，而且克服了耗时的逐片数据注释过程。很明显，相邻的片共享相同的信息，所以不需要这么多数据冗余。用等效的3D替换了U-Net架构中的所有2D操作，并在每个3D卷积层之后嵌入了一个批处理归一化层，以便更快地收敛。U-Net成功应用于3个数据集，并报道了2D U-Net与3D U-Net的IoU比较结果。为了进一步支持这一点，我们发现由医学图像计算和计算机辅助干预(MICCAI) 2021协会主办的肾肿瘤分割(KiTS) 2021挑战的前9/10参与者，挑战使用了3D UNet, 1/10使用了2D UNet

在这里插入图片描述

U-Ne的临床意义和疗效

在COVID-19大流行开始期间，医护人员和工作人员不可避免地流失，这促使人们意识到在图像和检测分析中使用人工智能的重要性。根据世卫组织的数据，在2020年1月至2021年5月期间，全球有近8万至18万名医疗保健和工作人员可能死于COVID-19感染。弥补这些熟练劳动力的损失，每个国家都将产生巨大的经济成本，而且在医务人员之间转移经验也是一个耗时的过程。在这个方向上，Michael等应用了大规模分割网络来计数病理图像中的特定细胞。他们明确指出，从组织病理学图像中检测癌细胞是一项具有挑战性的任务，依赖于病理学专家的经验。而自动化系统可以提高工作流程的效率。事实上，最近基于深度学习的分割方法的成功，医疗数据集的扩展及其易于访问，以及对现代高效gpu的便利访问，它们对端到端用户特定图像分析问题的适用性得到了缓解。语义分割将普通的生物医学图像模式转换为有意义的、空间组织良好的模式，可以帮助医学发现和诊断，有时也有利于患者，因为他们可能能够避免侵入性的医疗程序。医学图像分割是大多数临床应用的重要组成部分和基石，包括诊断支持系统、治疗计划支持、术中辅助、肿瘤生长监测、和图像引导临床手术。图5显示了U-Net可用于临床应用的一般管道，以减轻专家的负担并加快疾病检测过程。
在这里插入图片描述

使用基于深度学习的方法的整个端到端范式，特别是U-Net，是将这一概念融入日常生活的经验斗争。计算机辅助诊断(CAD)可以从四个主要对应物构建:输入、网络、输出和应用。输入块可以利用对各种可用数据的不同分析，如记录的转录本、各种人体信号(EEG/ECG)和医学图像。不同数据类型的多模态融合可以提高管道的诊断精度。

根据特定的标准，如图像模态和数据分布，网络模块可以决定选择一个U-Net扩展更适合的设置。输出是最终应用程序块的决策可以决定的特定于任务的对应物。

另一方面，国际图像分析比赛对自动分割方法的需求很高，在生物医学领域占70%，主要由医学院校主办或与之合作。与传统的假设驱动研究相比，深度学习竞赛的优势之一是解决问题方法的先天差异。从本质上讲，数据竞赛鼓励多个个人或团体独立或协作地解决特定问题。根据Maier-Hein等人在2016年之前的150个医疗细分比赛中，大多数使用基于U-Net的模型。基于上述观点和全面的基于unet的架构，医疗和临床设施可以在现实世界和商业环境中使用这些模型，其中nnU-Net是这些成功的端到端设计之一。

Unet扩展

根据2015年首次发布的约4.8万次引用，U-Net是一个无处不在的网络。

这证明了它可以在广泛的领域处理不同的图像模式，而不仅仅是在医学领域。在我们看来，U-Net的核心优势在于它的模块化和对称设计，这使它成为广泛修改和与各种即插即用模块协作以提高性能的合适选择。因此，通过追求这一线索，我们将网络设计为模块化的可改进的对应物，除了固体辅助修改，以实现SOTA或与分割性能相当。在这方面，我们提供了我们的分类法，并将UNet修改的不同变体分为如下系统类别:

跳过连接增强
主干设计增强
bottleneck增强
transformers
丰富表示增强
概率设计

跳过连接增强

跳过连接是U-Net体系结构的重要组成部分，因为它们将深层、低分辨率层的语义信息与浅层、高分辨率层的本地信息结合在一起。在介绍原始U-Net中使用的经典跳过连接的扩展和变体之前，本节提供跳过连接的定义并解释它们在U-Net体系结构中的作用。跳过连接定义为神经网络中的连接不连接下面的两层，而是跳过至少一层。考虑到一个两层网络，跳过连接将输入直接连接到输出，跳过隐藏层。在图像分割中。当时，卷积网络最常见的用途是用于只有一个标签作为输出的图像分类任务。然而，在分割任务中，应该为图像中的每个像素分配一个标签，将定位任务添加到分类任务中。
在通常的收缩网络中添加了额外的层，使用上采样而不是池化层来增加输出的分辨率，并为每个像素获得一个标签。由于本地高分辨率信息在网络的收缩部分丢失，因此在对这些卷进行上采样时无法完全恢复。
为了将深层的、粗糙的语义信息与浅层的、精细的外观信息结合起来，他们添加了跳过连接将上采样的更细的下层与最终的预测层连接起来
在这里插入图片描述
编码器路径中的每个级别都通过跳过连接连接到解码器路径中相应的相同分辨率级别，以将描述什么的全局信息与解析哪里的局部信息结合起来。

与上述方法的不同之处在于，不仅跳过连接的数量更多，而且特性的组合方式也不同。向上采样的特征从早期层映射到输出分辨率，并将它们添加到最终层的输出。将相应编码器和解码器级别的特征连接在一起，并通过将它们一起通过两个卷积层和一个上采样层来处理它们。

通过训练有和没有跳跃连接的密集U-Net对跳跃连接进行了消融研究。结果清楚地表明，有跳过连接的网络比没有跳过连接的网络具有更好的泛化能力。

在接下来的几年里，关于跳过连接，原始U-Net架构的许多变体和扩展被开发出来。下面几节将介绍处理通过跳过连接传递的编码器特征映射、组合两组特征映射以及扩展跳过连接数量的不同类型的扩展。

Increasing the Number of Skip Connections

典型的有unet++和unet+++
除此之外，Xiang等人没有增加正向跳过连接的数量，而是增加了额外的反向跳过连接:他们的双向o形网络(BiO-Net)是一种具有双向跳过连接的U-Net架构。
这意味着有两种类型的跳过连接:前向和反向

在同一级别上组合编码器和解码器层。这些跳过连接保留编码器的低级视觉特征，并将它们与语义解码器信息结合起来。
向后跳过连接将解码后的高级特性从解码器传递回相同级别的编码器。编码器可以将语义解码器特征与其原始输入结合起来，灵活地聚合两种特征。

这两种类型的跳过连接一起构建了一个o形的递归架构，可以多次遍历以获得更好的性能(参见图8)。编码器和解码器的递归输出可以定义如下:

在跳过连接中处理特征映射

attention unet系列结构：

在这里插入图片描述
为了提高从超声图像中分割卵巢和卵泡的困难任务的性能，Li等人将空间循环神经网络(RNNs)添加到U-Net的跳跃连接中。由于图像中通常有许多小滤泡，相邻的滤泡很可能在空间上是相关的。此外，卵泡和卵巢之间可能存在空间相关性。由于原有U-Net的最大池化操作会导致空间相对信息的丢失，因此空间rnn应该通过学习多尺度和长范围的空间上下文来改善分割结果。
在这里插入图片描述

Li等用ReLU激活的普通rnn构建了空间rnn。每个空间RNN模块以特征映射作为输入，生成空间RNN特征作为输出。它使用四种独立的数据转换，从上、下、左、右四个方向集成本地空间信息。来自每个方向的地图被连接起来，并通过1 × 1卷积层来生成特征地图，其中每个点包含来自所有四个方向的信息。然后重复该过程，将局部空间信息扩展为全局上下文信息。如图10所示，通过跳过连接传递的最终特征映射是原始编码器特征映射和从这些映射中提取的RNN特征的组合。作者声称，该架构在避免分割假阳性和检测和分割非常小的卵泡方面特别强。RNN模块的一个局限性是它们使训练更加困难和计算成本更高。为了弥补这一点，李等人增加了深度监管。
在这里插入图片描述
引入了一种带有投影跳过连接的UNet来处理N维度→M维度分割，其中M < n。该编码器是一种经典的带有残块的UNet编码器。解码器只恢复分割的M维的输入分辨率。剩余的可约维M < d≤N被压缩。
通过投影跳过连接传递的编码器特征映射由具有不同内核大小的平均池化层处理，以便在分割中不存在的维度被减少到它们在bottleneck.中的大小。这样就可以将它们与相应的解码器特征映射连接起来。
在最后一个解码器层之后加入全局平均池(GAP)和卷积层来计算最终的M维度分割。N = 3和M = 2的总体架构如图11所示。在解码器路径中，第三维没有上采样到其原始分辨率，最终由GAP减小到一个分辨率。

编码器和解码器特征映射的组合

在这里插入图片描述

在BCDU-Net中引入了经典跳过连接的另一个扩展，其中在跳过连接中添加了双向卷积长期-短期-存储器(LSTM)模块。阿扎德等人
认为，从编码器中提取的高分辨率特征图和从之前包含更多语义信息的上卷积层提取的特征图的简单拼接可能不会导致最精确的分割输出。相反，他们将两组特征映射与双向卷积LSTM模块中的非线性函数结合起来。理想情况下，这将导致一组具有丰富的局部和语义信息的特征映射。
双向卷积LSTM模块用于在跳过连接的末尾组合特征映射，其架构如图12所示。它使用两个ConvLSTMs，在正向和反向路径的两个方向上处理输入数据。输出将通过考虑两个方向上的数据依赖关系来确定。与Li等人的方法相反
其中只有编码器特征映射由RNN处理，然后与解码器特征连接，这种方法用RNN处理两组特征映射。

Backbone Design Enhancements

除了适应U-Net的跳跃连接，在更新的U-Net扩展中使用不同类型的骨干网也是很常见的。主干网定义了编码器中的层是如何排列的，因此它的对应部分被用来描述解码器的体系结构。

Residual Backbone

U-Net架构的一个非常常见的主干是由He等人最初开发的ResNet。残差网络通过解决在深度神经网络中堆叠几层时经常发生的消失梯度问题，以及在向网络中添加越来越多层时导致首先饱和然后降低精度的退化问题，使更深层次的网络架构成为可能。剩余残差块，通过添加跳过连接和执行添加到堆叠层输出的标识映射显式地适合残差映射。

在残差U-Net的实现中，Drozdzal等人将U-Net中的标准跳过连接称为长跳过连接，将残差跳过连接称为短跳过连接，因为它们只跳过两个卷积层。Drozdzal等人使用残差快块作为U-Net的骨干，可以构建更深层次的架构，并发现网络训练比原来的U-Net收敛得更快。Milletari等人在他们的3D U-Net架构中报告了同样的发现，使用3D残差作为骨干。

骨干网的一个突出的适应是将所有的2D卷积交换为3D卷积来处理整个图像体积，可以经常发现在医疗应用。当使用2D卷积以切片方式处理3D图像时，网络无法捕获和学习z轴上的上下文。使用带有3D卷积的全卷积架构可以提高这一缺陷，并且可以在所有三个维度上充分利用空间信息。

在u-net中使用3D卷积层作为骨干的缺点是高计算成本和GPU内存消耗，这限制了网络的深度和过滤器的大小，即它的视野。Milletari等人采用全卷积体积，V-Net架构使用3D残差块(图13)作为骨干，从而实现3D图像的快速准确分割。Li等的H-DenseUNet使用了两个u - net，一个以2d - density -blocks为骨干，另一个以3ddensity -blocks为骨干。这使得他们能够首先提取深层的片内特征，然后在较浅的体积架构中学习片间特征，计算负担较低。
在这里插入图片描述

多分辨率块

在这里插入图片描述

为了解决在不同尺度上分析对象的困难，Ibtehaz等人引入了MultiResUNet，它以类似于inception的块作为骨干。由Szegedy等人引入的初始块，在相同的输入上并行使用具有不同内核大小的卷积层，并在将它们传递到更深的网络之前将来自不同尺度的感知结合起来。经典U-Net中下面两个3 × 3核的卷积类似于一个5 × 5核的卷积。为了将多分辨率分析纳入网络，应在5 × 5卷积的基础上并行添加3 × 3和7 × 7卷积。这可以通过用类似初始的块替换卷积层来实现。添加额外的卷积层会增加内存需求和计算负担。因此，Ibtehaz等人将更昂贵的5 × 5和7 × 7卷积表示为连续的3 × 3卷积。最后一个MultiRes块是通过添加剩余连接创建的。从最初的inception块到MultiRes块的演变可以在图14中看到。过滤器的数量逐渐增加，以进一步降低内存需求，而不是为所有连续的卷积保持相同数量的过滤器。

在最终的架构中，来自原始U-Net的两个连续的3 × 3卷积被一个MultiRes块取代，导致更快的收敛，改善模糊边界的描述，以及对异常值和扰动的更高鲁棒性。

另一个众所周知的U-Net扩展主干是由Huang等人在[125]中介绍的DenseNet。与残余网络类似，DenseNet也旨在通过创建从早期层到后期层的跳跃连接来解决梯度消失问题。DenseNet通过连接具有相同特征映射大小的所有层来最大化信息流。这意味着每一层都从所有前一层获得连接的输入。

与人们预期的相反，与传统的CNN相比，密集网络实际上需要更少的参数，因为它不需要重新学习冗余特征图，因此可以使用非常窄的层，例如。只有12个滤波器，可以学习多分辨率的功能。从每一层到损失函数的直接连接实现了隐式深度监督，这有助于训练更深层的网络架构，而不会出现消失的梯度。

Karaali等利用u - net样表示中的稠密残差块(Dense Residual block)进行视网膜血管分割。为此，他们受到DenseNet和ResNet的启发，设计了残差密度网(Residual Dense-Net, RDN)块。在它们的体系结构中，第一子块包括连续的批处理归一化、ReLu、卷积和Dropout对应部分，其中采用了中所示的密集连接模式。下面的子块应用剩余连接模式。使用类似densenet的主干可以帮助UNet架构使用更少的参数学习更多相关的特性。剩余的连通性平滑了跨层的信息流，以促进优化步骤。

Re-considering Convolution

该方向旨在通过重新考虑可选卷积运算来减少朴素卷积运算的计算负担。Jin等[65]将原始U-Net中的每个3 × 3卷积层交换为可变形的卷积块，以精确分割视网膜血管。他们的体系结构被命名为DUNet。
在这里插入图片描述

可变形卷积块的灵感来自于Dai等人对可变形卷积网络的研究，并且应使感受野适应输入特征中复杂血管结构的不同形状和规模进行最佳调整。在可变形卷积中，偏移量被学习并添加到标准卷积中通常使用的网格采样位置。5 × 5核的调整采样位置的一个示例说明可以在上图种看出
在经典卷积中，核采样网格G定义为:
在这里插入图片描述
每个可变形卷积块由一个卷积层组成，从输入中学习理想偏移量。一个可变形的卷积层应用卷积调整采样点，然后进行批量归一化和ReLU激活。由于计算出的偏移量∆mi通常不是整数，因此采样点处的输入值由双线性插值确定。将简单卷积转换为可变形卷积有助于网络适应不同的形状、规模和方向，但计算负担更高，因为每个块需要一个额外的卷积层来确定采样网格的偏移量

在对三维图像进行分割时，充分利用体积数据中的空间信息是非常重要的。然而，这对于2D卷积是不可能的，而3D卷积在计算上非常昂贵。
在这里插入图片描述

为了解决这个问题，Chen等人使用了可分离的3D卷积作为U-Net的骨干。原来U-Net中的每个3D卷积块都被一个S3D块取代，如图16所示。三维卷积分为三个分支，每个分支代表一个不同的正交视图，以便输入在轴向、矢状和冠状视图中处理。此外，在分离的三维卷积中添加一个剩余的跳跃式连接。

Chen et al[使用可分离三维卷积作为U-Net的骨干，可以在UNet架构中考虑来自体积数据的完整空间信息，而不需要标准三维卷积的极高计算负担。

Recurrent Architecture

循环神经网络(RNN)经常用于处理序列数据，如语音识别。Liang等人是最早设计用于图像识别的循环卷积神经网络(RCNN)的小组之一。虽然与顺序数据相比，输入图像是静态的，但每个单元的活动都由其相邻单元的活动调制，因为rcnn的活动会随着时间的推移而演变。通过展开RCNN时序，他们可以获得具有固定数量参数的任意深度网络。
在这里插入图片描述

使用这些RCNN块作为U-Net体系结构的主干，可以增强模型集成上下文信息的能力。Alom等人使用RCNN块作为RU-Net架构的主干，确保了分割任务的更好的特征表示。

显示了一个循环卷积单元，它们用作主干。图17b显示了图17a中的两个子块之一在t = 2时展开，这也是他们在实验中选择的展开参数。在单独的循环卷积块中添加额外的剩余连接，可以实现更深层次的网络，并形成R2U-Net架构。

Bottleneck Enhancements

U-Net架构可以分为三个主要部分:编码器(收缩路径)，解码器(扩展路径)，以及位于编码器和解码器之间的Bottleneck 。Bottleneck 用于迫使模型学习输入数据的压缩表示，其中应该只包含在解码器中恢复输入所需的重要和有用的信息。为此，在多项研究中设计了各种模块，以重新校准和突出最具鉴别性的特征。

在原来的U-Net中，瓶颈由两个具有ReLU激活的3 × 3卷积层组成。然而，最近的方法扩展了经典的瓶颈体系结构来提高性能。

Attention Modules

一些著作将注意力模块应用于其U-Net体系结构的瓶颈。Fan等人在他们的MA-Net中使用了位置注意块(PAB)来建模具有自注意的瓶颈特征图中像素之间的空间依赖性。
在这里插入图片描述

PAB的体系结构如图18所示。在编码器路径的末端传递到瓶颈的特征映射首先由3 × 3卷积层处理。然后，生成的输出由三个单独的1×1卷积层处理，生成A、B和c。A和B被重塑为两个向量。这两个向量的矩阵相乘通过了softmax函数得到空间特征注意图P∈RN×N，其中位置pi,j编码了特征图中第i个位置对第j个位置的影响。随后，在重塑后的C与空间特征注意图P之间进行矩阵乘法，得到的特征图与输入I0相乘，然后通过最后的3 × 3卷积层。因此，最终输出O的定义如下:
在这里插入图片描述
α在训练开始时被设置为零，并在训练过程中学会分配更多的权重。

考虑到最终输出是所有位置的特征图与原始特征图的加权和，它具有全局上下文视图，可以选择性地聚合丰富的上下文信息。由于PAB可以从全局角度考虑特征之间的长期空间依赖关系，提高了类内相关性和语义一致性。
Guo等人还在SA-UNet架构的瓶颈上增加了空间注意模块。空间注意模块应增强相关特征，压缩瓶颈中不重要的特征。在他们的方法中，输入特征映射并行地通过平均池化和最大池化层传递。这两种池化操作都沿着通道维度应用，以生成高效的特征描述符。然后将输出连接起来，通过7×7卷积层和sigmoid激活来获得空间注意力图。

通过将空间注意力图与原始输入特征相乘，可以根据输入对手头分割任务的重要性对输入进行加权。注意力模块只给原来的U-Net增加了98个参数，因此计算量非常轻。

在另一项工作中，Azad等人利用U-Net瓶颈中的纹理/风格匹配机制的思想进行脑肿瘤分割。在他们的设计中，一个注意力代理被设计成从一个完整的模态(四种MRI模态，T1, T2, Flair和T1c)中提取信息信息到一个缺失的模态网络(只有Flair)。关于缺失情态任务的更多信息可以在中找到。在中提出了一种深度频率注意模块，用于对U-Net瓶颈进行频率重新校准。该注意块的目的是基于结构和形状信息重新校准特征表示，而不是基于纹理表示，以缓解物体识别中的纹理偏向。

Multi-Scale Representation

在这里插入图片描述
该方向的目标是通过包括多尺度特征表示来增强bottleneck设计，例如空洞卷积。空洞卷积的执行方式与标准卷积类似，但使用了带有插入孔的卷积核。小孔是通过在相应位置将卷积核的权值设置为零来定义的，这样做的模式是由采样率r定义的。考虑到采样率r，这在连续滤波器值之间引入r−1个零。因此，将k ×k卷积核放大为k + (k−1)∗(r−1)×k + (k−1)∗(r−1)滤波器。这样，层的接受域就被扩展了，而不需要引入任何额外的网络参数来学习。

图19显示了一个3 × 3的核，其atrous采样率r为r = 1, r = 2和r = 4。当要分割的对象大小相差很大时，网络提取多尺度信息就显得尤为重要。结合空间金字塔池化和atrous convolutions的思想，利用不同采样率的atrous convolutions对U-Net瓶颈处的特征图进行并行重采样，然后组合得到丰富的多尺度特征。

Hai等人在U-Net架构的、中使用了atrous空间金字塔池化(ASPP)来分割乳腺病变。编码器的最终特征图通过1 × 1卷积层和3个atrous 3 × 3卷积层并行传递，atrous采样率分别为6、12和18。这四组经过处理的特征映射与传递给瓶颈的原始特征映射连接在一起，并在传递给解码器之前通过最终的1 × 1卷积进行处理。

Wang等人在cple - net中利用bottleneck中的ASPP对COVID-19患者CT扫描的肺炎病灶进行分割。在这里，我们使用4个膨胀率分别为1、2、4和6的atrous卷积层对瓶颈特征图进行处理，以获取多尺度特征，用于分割大小病变。

同样，Wu等人提出了一种多任务学习范式JCS，用于COVID-19 CT图像的分类和分割。JCS[83]是一个双分支架构，它利用一个Group Atrous (GA)模块，在其分割分支瓶颈进行特征修改。遗传算法首先采用1 × 1卷积运算来扩展特征图的通道。然后将特征图分成4个相等的集合。利用这些集上不同14个速率的atrous卷积，可以得到更多具有不同接收野的全局特征图。为了从最终的特征图中充分提取更多的鉴别特征，JCS采用SE块作为重新校准通道级卷积特征的注意机制。

Transformers

在这里插入图片描述

Transformer Complement to CNN-based U-Net

在这里插入图片描述

TransUNet是一个2D网络，它逐片处理体积3D医学图像，由于其对构建模块的开创性ViT适应，它依赖于大规模图像数据集上预训练的ViT模型。这些限制使得Wang等指出了它们，并提出TransBTS作为一个类似u - net的体系结构，在空间和切片/深度维度上对局部和全局信息建模。而Transformer的计算复杂度为二次型，体积三维数据较大，而ViT的固定大小标记化过程则丢弃了局部结构

TransBTS利用3D CNN主干作为其编码器和解码器路径，以捕获跨空间和深度维度的局部表示，并从Transformer对应的整体高计算负担中释放出来

采用GT U-Net结构，解决了以往模糊边界分割方法的低性能问题

医学图像分割的混合CoTr架构解决了限制传统自注意(SA)多尺度功能的计算复杂性

UNETR是一种3D分割网络，它在编码器阶段直接利用仅包含ViT的体积数据，以3D体积风格捕获全球多尺度上下文信息，这在医学图像分割领域通常是至关重要的\

在计算机视觉任务中，特定区域的邻近信息往往比远区域更相关。为此，MT-UNet网络，以明智地捕获有关最邻近上下文信息的长期依赖关系。另一个关键点是，具有自我关注(SA)的ViT计算token间的仿射变换，忽略通过其他维度分配的标记间连接，特别是在医学图像中。因此，MTM本身包含一个外部注意(EA)对应物来解决这个问题。

上下文注意网络TMU，用于自适应合成U-Net产生的局部特征和ViT的全局信息，以增强医学图像的重叠边界区域。
在这里插入图片描述
UCTransNet，通过注意机制，即通道变换器(CTrans)，从通道的角度缓解了上述问题。CTrans是对基于u - net的管道中跳过连接的一种修改，由两个子对等体组成:Channel Cross fusion with Transformer (CCT)和Channel-wise Cross- attention (CCA)，分别用于自适应地聚合多尺度特征和引导融合的多尺度Channel-wise特征有效地解码
在这里插入图片描述
与UCTransNet类似，ScaleFormer解决了传统架构(混合/独立)中尺度间和尺度内局部特征和全局特征之间的不一致性问题。通过设计的创新是将基于cnn的特征与每个尺度的远程上下文特征有效地耦合在轻量级双轴MSA中，以行/列的方式捕获注意力。此外，ScaleFormer与具有空间感知的跨尺度Transformer建立桥梁，与目标区域的多尺度特征相互作用，超越器官的形状、位置和可变性的限制。表现优于TransUNet、Swin-Unet、MISSFormer和AFTer-UNet

Swin UNETR是对原始UNETR的修改，3D视觉变压器被编码器路径中的Swin变压器所取代。

Standalone T ransformer Backbone for U-Net Designs

MedT使用纯Transformer而不是基于CNN的方法来捕获远程空间上下文
在这里插入图片描述
swin-Unet结构

MISSFormer纯u型Transformer网络显示了以增强的Transformer块作为网络中的主要实体的MISSFormer网络。前面提到的Transformer的缺点之一是它们不适合捕获本地上下文，这与通过修补操作降低计算复杂性的解决方案一起出现。然而，局部上下文信息在高分辨率视觉任务中起着关键作用，因此视觉转换领域的一些研究通过在注意力模块中嵌入卷积运算来解决这一问题，例如PVTv1 ， PVTv2和Uformer。Huang等人论证了这种方法，并提出了在Transformer块中直接使用卷积层限制特征的区分的观点。利用Enhanced Transformer Context Bridge模块进行多尺度信息融合，并阻碍了编码器和解码器特征映射之间的差距。该模块捕获不同尺度特征之间的局部和全局相关性
在这里插入图片描述

D-Former是一个u型的层次结构，具有专门的D-Former块，这些块由局部作用域模块(LSMs)和全局作用域模块(GSMs)组成，以替代顺序捕获本地和全局上下文信息。每个D-Former块可以重复连续的LSM和GSM对应，但原始D-Former[50]在第三和第六个DFormer块中使用三个连续的LSM-GSM模块序列。
在这里插入图片描述
DS-TransUNet利用双路径Ushaped结构中的Swin Transformer对多尺度patch大小进行建模

Rich Representation Enhancements

为了获得丰富的表示，医学图像分割常用的方法是多尺度和多模态方法。关键目标是通过利用来自多模态或多尺度图像的所有可用信息来增强训练模型的性能，同时保留最理想和最相关的特征。

多尺度法，又称金字塔法，提出的拉普拉斯金字塔法。该方法通过调整源输入图像的大小将其转换为一系列空间分辨率降低的图像。该方案允许模型编码器直接访问不同尺寸增强图像的特征，从而学习各自的特征。

对感兴趣器官的研究需要其特定的成像方式来提供有针对性的信息。然而，每种成像技术都有其局限性，只能揭示器官的部分细节，这可能导致不准确的临床分析。因此，通过整合从多个输入图像中检索到的互补信息，可以对来自不同成像方式的图像进行融合，以补充彼此的信息。

具有编码器和解码器的UNet网络强大的结构设计使网络能够在多个输入级别上挖掘显著特征，并实现不同形式的有效特征融合。

Lachinov等人用多个编码器分别处理每个模态来评估级联U-Net的性能，以证明由于提取多模态表示而得到的改进。结果表明，考虑多种模态的体系结构优于只依赖单一模态的网络。

下面的分类将说明为学习更丰富的表示而提出的模态融合。

多尺度融合

广义焦点损失函数的Focal Tversky Attention U-Net，该函数可以调制Tversky指数，以解决数据不平衡的问题，提高医学图像分割中的精度和召回率平衡。此外，他们将多尺度图像输入纳入具有深度监督输出层的注意力U-Net模型。
在这里插入图片描述

在这里插入图片描述
作者进一步开发了一个FTL，通过迫使该函数将焦点转移到不准确和错误分类的预测上，从而更好地分割小感兴趣区域(ROIs)

M-Net的总体结构。它由多尺度输入层、u型卷积网络、侧输出层和多标签损失函数组成。
在这里插入图片描述

初始多尺度层以降序分辨率构造图像输入，用于分层表示学习。处理后的图像金字塔通过一个类似于原始U-Net架构[7]的u型网络传递，其编码器路径和解码器路径通过跳过连接连接起来。解码器路径中的每个阶段的输出被馈送到产生局部输出映射的侧输出层。边输出层的优点是边输出损失与最终层损失的反向传播可以缓解梯度消失的问题。由于圆盘区域覆盖了杯像素，作者通过基于Dice系数的多标签损失函数评估分割性能，其定义为:
在这里插入图片描述
K是类的总数，N表示像素的数量。P (k,i)和g(k,i)分别是预测概率和二进制label

不同步骤的层之间的输出不能相互连接，这阻碍了特征共享，导致冗余参数。为了解决上述问题，Moradi等人提出了MFP-UNet，它允许将不同阶段的所有块的输出馈送到最后一层

多模态融合

U-Net的单个编码器扩展为多个编码器，以接收不同模态的医学图像。编码器的分支通过各自的聚合策略连接起来，从而以不同的方式共享信息，提取更丰富的表示，并相互补充。

Dolz等人在密集多路径U-Net中提出的新架构在两个关键方面增强了传统U-Net模型的丰富表示学习:模态融合和初始模块扩展。针对多模态图像分割问题，采用了两种典型的分割策略。早期融合在早期阶段融合了多种成像模式输入的低水平特征。对于后期融合策略，不同模态的CNN输出在后期进行融合。

然而，这些先前的策略不能完全模拟图像信息在不同模态路径上的高度复杂关系。为了缓解这种限制，所提出的HyperDenseNet采用了每个流接收一个图像数据输入的策略

在这里插入图片描述
Lachinov等提出了一种U-Net的深度级联变体，Cascaded Unet，用于处理多模态输入，以获得更好的脑肿瘤分割性能。

尽管最初的U-Net可以处理多模态MRI图像输入，但它融合了以相同方式处理的所有模态的特征信息。在原有U-Net的基础上，提出的级联式U-Net采用多个编码器并行，以便更好地利用每种特定模态的特征表示。编码器路径包含独立的子路径，其中每个子路径利用卷积组来处理一个输入模态并生成特征映射。

然后对每个阶段的多个特征映射进行元素最大化操作，获得结果特征。特征图的输出与相应的大比例尺块的特征图相结合，促进了不同比例尺特征图之间的信息流动。级联UNet的解码器根据相同规模的输出和上一阶段解码器块的输出在每一层产生输出。这种策略鼓励模型迭代地改进早期迭代的结果。
在这里插入图片描述

利用深度信息

为了充分利用三维医学图像的结构信息，一些方法将U-Net修改为三维模型，设计模块进行跨通道信息提取。为了提高脑肿瘤的自动预后，Islam等人将U-Net架构适应于3D模型，并整合3D注意力策略进行图像分割。与单纯的跳过连接相比，引入的三维注意模型被聚合到U-Net的解码器部分，其中包括信道注意和空间注意。额外的3D注意层鼓励模块从原始图像中编码更丰富的空间特征。
在这里插入图片描述

三维注意力U-Net由三维编码器、解码器、跳过连接以及通道和空间注意力机制组成。在三维空间注意路径中，对输入特征图进行1 ×1 × C卷积，得到H ×W ×1维数的结果。同时，输入特征映射通过平均池传递，然后馈送到全连接层以获得1×1×C顺序通道相关性。

概率设计

一种类型的U-Net扩展将经典U-Net与不同类型的概率扩展相结合。根据应该实现的任务或应该增强的过程，使用了从贝叶斯跳过连接到变分自动编码器到马尔可夫随机场的不同类型的扩展，下面将介绍这些扩展。

Variational Auto Encoder (VAE) Regularization

从一个模糊的输入中学习了一个分段上的分布，以产生无限数量的可能分段，而不仅仅是提供最有可能的假设。在他们的方法中，他们结合了一个U-Net，用于产生可靠的分割，与一个条件变分自编码器(CVAE)，可以模拟复杂的分布，并在低维潜在空间中编码分割变量。在6维的潜空间中得到了最好的结果。

在这里插入图片描述
图31 (a)显示了给定训练好的先验网络和u-net以及低维潜在空间的采样过程。潜在空间中的每个位置都编码了不同的分割变量。将输入图像通过先验网络，它将确定给定输入图像的编码变量的概率。对于要预测的每个可能的分割，网络应用于相同的输入图像。从先验概率分布中抽取随机样本，并广播到与分割图形状相同的n通道特征图。然后将它与unet的最终特征图连接起来，并进行连续的1 × 1卷积处理
在每次迭代中只需要重新计算组合，因为U-Net的最后一个特征映射和先前网络的输出可以用于每个假设。

图31 (b)显示了概率U-Net的训练过程。
除了条件V AEs和确定性分割模型的标准训练程序外，还必须学习如何以有用的方式将分割变量嵌入潜在空间。这是通过后验网来解决的。它学习识别分割变量，并将其映射到潜在空间中的特定位置。来自其输出后验分布的样本与u-net的激活图相结合，必须得到与地面真相分割相同的分割。由此可见，训练数据集必须包含一组不同但合理的每个输入图像的分割。

Myronenko在3D U-Net架构中添加了一个V AE分支，以解决脑肿瘤分割训练数据有限的问题。在他们的架构中，UNet用于肿瘤分割，V AE用于共享相同编码器的图像重建。对于V AE，编码器的输出被减少到一个低维空间，并从给定均值和标准导数(std)的高斯分布中抽取样本。然后使用类似于UNet解码器的结构将样本重建为输入图像，但没有任何跳过连接。训练期间要最小化的总损失由三项组成
在这里插入图片描述

图模型算法

虽然经典U-Net在来自与训练数据相同分布的数据上表现良好，但在分布外数据上其准确性下降。

为了解决这个问题，将U-Net与Markov随机场(mrf)结合起来，形成MRF-Unet。低参数，一阶mrf在泛化方面更好，因为它们编码更简单的分布，这是拟合分布数据的一个重要品质。
在这里插入图片描述
U-Net非常准确的预测弥补了mrf不太灵活的事实。所提议的模型的体系结构可以在图32中看到。由于U-Net分布和MRF分布的组合很难通过计算两者的乘积来解决，因此使用迭代平均场方法来估计Kullback-Leibler散度下最接近的因式分布。该过程的详细数学推导可以在Brudfors等人的工作中找到。实验表明，MRF和U-Net的结合提高了分布内和分布外数据的性能。轻量级MRF组件不向体系结构添加任何额外参数，作为简单的先验，因此可以学习抽象的特定于标签的特征。