论文阅读《Cross-scale multi-instance learning for pathological image diagnosis》

From：2024 MIA

CS-MIL GitHub：https://github.com/hrlblab/CS-MIL

一、Abstract：

在数字病理学中，分析高分辨率全幻灯片图像（WSIs）时涉及多个尺度的信息是一个重大挑战。多实例学习（MIL）是处理高分辨率图像的常见解决方案，通过分类对象包（即较小图像块的集合）来实现。然而，这种处理通常只在WSIs的单一尺度（例如，20倍放大）上执行，忽略了对人类病理学家诊断至关重要的跨尺度信息。在本研究中，我们提出了一种新颖的跨尺度MIL算法，明确地将跨尺度关系聚合到单一MIL网络中，用于病理图像诊断。本文的贡献有三个方面：（1）提出了一种新颖的跨尺度MIL（CS-MIL）算法，该算法整合了多尺度信息和跨尺度关系；（2）创建并发布了一个具有尺度特定形态特征的玩具数据集，用于检查和可视化差异性跨尺度注意力；（3）通过我们简单的跨尺度MIL策略，在内部和公共数据集上展示了优越的性能。

二、Contribution：

DeepAttnMIL使用MIL将图像块聚类到不同的“包”中，以模拟和聚合患者级诊断的多样化局部特征。MIL在多尺度方向的努力通过在WSI中使用多尺度图像来模仿人类病理学评估（Hashimoto等人，2020a；Li等人，2021）。这些方法通常在每个尺度上独立提取特征，然后执行“后期融合”步骤。在本研究中，我们检验了在早期阶段引入不同尺度之间相互作用的可行性，作为一种基于注意力的“早期融合”范式。

与当前的“多尺度”MIL策略不同，我们提出了一种新颖的“跨尺度”注意力机制。关键创新是引入一个注意力引导的MIL方案，在特征提取期间显式地模拟跨尺度交互（图1）。所提出的方法不仅利用了不同尺度（具有不同视场）的形态特征，而且还学习了它们作为“早期融合”学习范式的跨尺度交互。通过实证验证，我们的跨尺度MIL方法在与其他多尺度MIL基准相比，实现了更高的曲线下面积（AUC）得分和平均精度（AP）得分。

使用AI模型在多个尺度上分析图像不仅通过使用尺度感知知识提高模型性能，而且还利用模型学习到的同一位置的多尺度间的空间一致性关系。以前的研究已经考虑了多个尺度上的形态特征。Hashimoto等人（Hashimoto等人，2020a）提出了一种创新的基于CNN的方法，用于癌症亚型分类，有效地整合了多个实例、领域对抗和多尺度学习框架，结合了不同尺度的知识。Li等人（Li等人，2021）采用了特征连接策略，将不同尺度的每个区域的高级特征合并，以纳入从CNN特征提取器获得的跨尺度形态模式。Barbano等人（Barbano等人，2021a）提出了一种多分辨率方法用于异型性分级。

三、Method：

如下图所示，我们提出了一种新颖的基于注意力的“早期融合”范式，旨在全面捕捉WSIs中跨尺度关系。首先，从WSIs中联合提取具有相似中心坐标但不同尺度的图像块。然后，使用自监督模型提取每个图像块的表型特征。对每个WSI应用基于局部特征的聚类，将表型模式分配到每个MIL包中。接下来，执行跨尺度注意力引导的MIL，以聚合多尺度和多聚类设置中的特征。最后，生成一个跨尺度注意力图，供人类视觉检查。

1）特征嵌入

（分别在三个尺度上训练三个自监督特征提取器E1、E2、E3，然后根据预训练好的三个特征提取器来提取特征F1、F2、F3）

在MIL社区中，大多数组织病理学图像分析方法分为两个阶段（Schirris等人，2021；Dehaene等人，2020）：（1）自监督特征嵌入阶段（2）弱监督基于特征的学习阶段。

我们的方法遵循类似的设计，利用我们的数据集训练对比学习模型SimSiam（Chen和He，2021），作为表型编码器（Es）从图像块（Is）中提取高级表型特征（Fs），如方程1所示。SimSiam通过最大化不同图像增强之间无标签的样本内相似性，展示了比其他骨干网络更优越的特征提取性能。

Fs=Es(Is),s∈(1,S)Fs=Es(Is),s∈(1,S)

其中S是WSIs上的尺度数量。三个预训练的编码器（Es）分别通过不同尺度的图像块进行训练。这一自监督学习阶段对于后续弱监督基于特征的学习阶段的有效特征提取至关重要。所有图像块被嵌入到低维特征向量中，以用于第二阶段的分类。

2）表型聚类

（只对x20放大倍率的特征进行聚类，聚类为数目为？，然后从每个类中平等的收集patch，来进行原型的表示）

受（Yao等人，2020）启发，使用k均值聚类在患者层面上根据他们在第一阶段20倍放大时的自监督嵌入对图像块进行聚类。值得注意的是，高级特征在表示表型方面比低分辨率缩略图更为全面（Zhu等人，2017）。每个袋子中的图像块从不同的聚类中平等地收集，然后通过在WSI上稀疏分布的独特表型模式组织出对MIL模型具有更好泛化能力的袋子。另一方面，具有相似高级特征的图像块被聚合用于分类，而不受空间限制。

3）跨尺度注意力机制

（使用在DeepAttnMIL中提到的MI-FCN模型来进行特征的进一步提取，MI-FCN模型参考我上一篇文章，然后在三个尺度下的特征只用一个MI-FCN模型来提取三个不同的fs特征，然后对于三个不同的fs特征考虑成一个整体，可能利用concat操作，接下来进行cross-attention分数的提取，然后再将cross-attention分数与fs的整体特征相乘，最终得到bag级别的表示）

我们的方法在MIL相关文献的前期工作基础上，通过引入一个跨尺度注意力机制来捕捉整个幻灯片图像（WSIs）中跨尺度的模式。具体来说，我们使用基于CNN的编码器来细化来自相应表型聚类的图像块嵌入。然后，实例级特征被聚合以实现患者级的分类，在WSI的生存预测上取得了优越的性能。虽然以前的工作提出了注意力机制来增强模型对WSI中空间位置模式的使用（Ilse等人，2018；Lu等人，2021b），但它们没有利用WSI中跨尺度的模式。其他方法已经将多尺度特征聚合到WSI的深度学习模型中（Hashimoto等人，2020a；Li等人，2021），但它们在利用同一位置内多个分辨率之间的相互作用方面表现出了局限性。

为了解决这个问题，我们提出了一个新颖的跨尺度注意力机制，以在骨干网络中表示不同尺度的意识。首先，来自表型编码器（Es）的嵌入跨尺度特征（fs）通过多尺度编码器（EMS）在不同尺度之间进一步处理，该编码器采用了来自DeepAttnMISL（Yao等人，2020）的暹罗多实例全卷积网络（MI-FCN）：

fs=EMS(Fs),s∈(1,S)fs=EMS(Fs),s∈(1,S)

其中S是WSI上的尺度数量。所有多尺度编码器（EMS）在不同尺度之间共享权重。接下来，应用跨尺度注意力机制来考虑同一位置内跨尺度注意力中每个尺度的重要性。跨尺度特征（fs）同时输入到跨尺度多实例学习网络（CS-MIL），该网络包含两个核大小为1×1的全卷积层，和一个ReLU激活函数。CS-MIL的输出是一组跨尺度注意力分数（as），通过将跨尺度特征作为一个整体来考虑。这是使用方程（3）实现的：

其中W ∈ RL×1 和 V ∈ RL×M 是CS-MIL中的可训练参数，L是EMS输出fs的大小，M是CS-MIL第一层的输出通道数，tanh(.)是双曲元素级非线性激活函数，S是WSI上的尺度数量。然后，跨尺度注意力分数（as）与跨尺度特征相乘，得到融合的跨尺度表示（如方程（4）所示）：

最后，部署基于注意力的实例级池化操作符（C）从（Yao等人，2020）实现患者级的分类，跨尺度嵌入在（5）中，袋子大小为n。

跨尺度注意力机制根据CS-MIL中的跨尺度特征（fs）为每个区域（Is）产生注意力分数（as）。这些注意力分数反映了在融合跨尺度表示（Fcs）进行最终分类（C）时，不同尺度上表型特征对诊断的相对重要性。通过将这些分数填充回WSIs上的相应位置，我们获得了一个结合尺度和位置信息的注意力图（As）。这张图为不同背景下的疾病导向探索提供了见解，突出了跨尺度机制的多功能性和实用性。

四、Result：

表1和图3表明，多尺度模型比单尺度模型表现更好，这表明来自WSIs的多尺度数据的外部信息是有用的。提出的CS-MIL模型在大多数评估指标上超越了其他模型，突出了跨尺度注意力的有效性，它全面学习多个尺度的信息，并考虑了MIL中的跨尺度关系。

图4展示了CS-MIL模型使用实例分数定位正区域，而跨尺度注意力图识别出现独特模式的正确尺度。在Macro-anomaly数据集中，更大的圆形区域在5倍放大时被更多地突出显示，为模型区分椭圆和圆形的不同形状模式提供了进一步的证据，尤其是在更大的视觉领域中。为了进一步研究跨尺度注意力机制的效率，我们进行了实验，通过均值向量和连接设计整合跨尺度特征，同时保持1:1:1的注意力分数比例。然后在两个真实的病理数据集上评估性能，展示了跨尺度注意力机制在病理图像分类中的能力。这些设计也被应用于两个玩具数据集，每个数据集都体现了数字病理学中观察到的独特形态模式。在表5中，单尺度模型的表现表明，只有微小白十字图案能在20倍放大时被捕捉，而宏观椭圆和圆形则在三个尺度上被区分开来。在分析Micro-anomaly数据集时，其中模式仅在单一尺度上出现，精细化策略（如MS-DAMIL等）在捕捉目标特征方面表现良好。相反，连接策略（如DS-MIL、均值向量、连接等）在聚合跨尺度模式时更为有效，因此在Macro-anomaly数据集上表现更优越。基于蒸馏（如DTFD-MIL、HAG-MIL等）的方法在特征在层次尺度上可继承且区域一致时表现更好，但在Micro-anomaly数据集中，缺乏跨不同尺度一致性的尺度特定模式则无法被识别。

结果表明，提出的跨尺度注意力机制既高效又灵活，能够改善尺度特定知识的模式定位和跨不同尺度的层次知识的模式整合。这些发现强调了我们提出的跨尺度注意力机制在解决数字病理学中不同形态模式问题上的多功能性。表6报告了不同多尺度架构中最新模型的参数数量和GPU内存使用情况。提出的方法仅通过增加较低的计算复杂性就实现了更好的分类性能。我们的研究存在一定的局限性和改进空间。在当前模型中，预训练过程是为不同尺度的三个模型单独执行的，这需要大量的计算资源，并且在自监督学习期间没有捕获跨尺度知识。一个接受多尺度图像训练并具有尺度感知知识的Omni模型是有希望的。此外，当前流程的最大视觉领域是1024×1024像素，这在WSIs中仍然是一个相对较小的区域。然而，最近ViTs的进步为通过结合更大的空间关系和更大视觉领域中的更多区域信息来增强流程提供了机会，允许它直接接收幻灯片级别的所有信息。尽管特征聚类的主要目的是聚合在WSIs上稀疏分布的块，但进行不同尺度特征之间的相似性分析仍然很有趣。这种分析旨在全面理解真实数据集中跨尺度特征之间的关系以及知识场景，与所提出的玩具数据集设计进行比较。