[论文地址] [代码] [ICCV 21]
Abstract
从结肠镜图像中自动分割息肉是计算机辅助诊断结直肠癌的一个重要步骤。近年来报道的大多数息肉分割方法都是基于完全监督的深度学习。然而,医生在诊断过程中对息肉图像的注释是非常耗时和昂贵的。在本文中,我们提出了一种新的半监督的息肉分割方法,通过协作和对抗学习的集中和分散表征学习模型,其中集中和分散提取模块被用来处理息肉位置和形状的多样性。此外,在对抗性训练框架中由鉴别器产生的置信图显示了利用未标记数据和提高分割网络性能的有效性。进一步采用一致的正则化来优化分割网络,以加强重点和分散提取模块的输出的代表性。我们还提出了一种辅助的对抗性学习方法,以更好地利用未标记的例子来进一步提高语义分割的准确性。我们在两个著名的息肉数据集上进行了广泛的实验。Kvasir-SEG和CVC-Clinic DB。实验结果证明了所提出的模型的有效性,持续优于最先进的基于对抗性训练的半监督分割模型,甚至优于一些先进的全监督模型。
Method
本文方法的框架如下:
Focused Extraction Module 属于一种比较经典的多级特征提取模块,加入到了Segmentation Network 1中,其结构如下所示:
Dispersive Extraction Module 属于一种比较经典的多级特征提取模块,加入到了Segmentation Network 2中,其结构如下所示:
Primary Adversarial Learning PAL对应着总体流程图中的Discriminator Network 1。需要注意的是,PAL严格来讲不算本文贡献的一部分,在消融实验中,其属于baseline的一部分。具体来说,PAL的这个判别器会首先对输入的分割结果生成一个Confidence Map,这个置信图的每一个像素表示判别器认为该位置的预测是否正确。因此,分割网络被鼓励生成能欺骗判别器的分割结果。
Auxiliary Adversarial Learning AAL的策略如下所示。这里的判别器对应的是总体流程图中的Discriminator Network 2。
这个东西的话其实算是一种非常老套的策略了,让判别器判断分割结果是来自于已标注的图像还是未标注的图像。需要注意的是,图像本身并没有被送入判别器中,判别器判断的只是分割结果本身。因此,这里的逻辑实际在于,对于由已标注图像(训练图像)产生的分割结果,其包含着一些有价值的特征,比如病灶的位置,形状,置信度等,所以可以利用对抗学习来鼓励分割网络对未标记的样本也产生高置信度的预测。
容易发现,PAL和AAL做的是同一件事,都是判断分割结果是否真实;只不过PAL比较的是GT Mask与Pred,而AAL比较的是Labeled Pred与Unlabeled Pred。
Experiment
Backbone Network 在U-Net的基础上进行的半监督。
Quantitative Results 本文的实验十分令人疑惑,只比较了一个很旧(2018)的半监督语义分割方法(Hung’s):
相比如传统的全监督语义分割方法(CENet)也没有什么优势;摘要中所claim的"甚至优于一些先进的全监督模型",也就顶多只能打打UNet++的样子。
Ablation Study 可以看到起主要作用的是DEM模块,能够带来3%的性能增益;在DEM基础上加入FEM与AAL各自能带来1%左右的性能增益。注意这里的baseline指的就是对比方法Hung’s,从这个角度讲本文算是一篇增量的工作。
仔细一想容易发现,本文是披着半监督的皮在做全监督,FEM与DEM模块都是直接对分割网络本身进行了修改,能够带来全监督层面的性能提升。