文章目录
- Patcher: Patch Transformers with Mixture of Experts for Precise Medical Image Segmentation
- 摘要
- 本文方法
- patcher块
- Mixture of Experts Decoder
- 实验结果
Patcher: Patch Transformers with Mixture of Experts for Precise Medical Image Segmentation
摘要
- 提出了一种新的编码器-解码器视觉转换器架构,Patcher,用于医学图像分割
- 与标准的视觉Transformers 不同,它采用了Patcher块,将图像分割成大的补丁,每个补丁又被进一步划分成小的补丁
- Transformers 被应用于大Patch 中的小Patch ,这限制了每个像素的感受野
- 使大的Patch 重叠,以增强Patch 内的通信
- 编码器采用具有增加感受野的Patcher块级联来提取从局部到全局水平的特征
- 这种设计使Patcher既受益于细胞神经网络中常见的从粗到细的特征提取,也受益于Transformers优越的空间关系建模。
- 我们还提出了一种新的基于专家混合(MoE)的解码器,该解码器将来自编码器的特征图视为专家,并选择一组合适的专家特征来预测每个像素的标签
代码地址
本文方法
给定大小为H×W×C的输入图像,Patcher首先使用编码器从输入图像中提取特征。编码器包含一系列基于Transformer的Patcher块,这些块产生一系列特征图,捕捉从局部到全局的视觉特征,感受野不断增加。
然后将这些特征图输入到具有混合专家(MoE)设计的解码器,其中来自编码器的每个特征图充当专家。解码器中的四层门控网络输出专家特征图的权重图,并使用权重来获得组合特征图。然后使用多层感知器(MLP)和上采样层将组合的特征图处理为最终的分割输出。基于MoE的设计增加了不同级别特征的专业化,同时减少了它们之间的干扰。它允许网络通过选择一组合适的专家特征来对每个像素进行预测。例如,网络可能需要特定全局形状内像素的全局特征,而它可能需要局部特征来捕捉分割边界处的精细细节。最后,我们使用用于图像分割的标准二进制交叉熵(BCE)损失来训练Patcher。
patcher块
输入被分割成具有重叠上下文的大patch,每个patch被进一步分割成小patch。小patch由一系列VIT处理,以提取细粒度特征。最后的输出是通过重新组装大的补丁来产生的
Mixture of Experts Decoder
解码器遵循MoE设计,将编码器的四个特征图视为专家。解码器首先使用逐像素MLP来处理每个特征图,然后将它们上采样到第一个特征图的大小,即H2×W2×D,D是MLP之后的通道数。我们使用[F1,F2,F3,F4]来表示上采样特征,它们也是专家特征
接下来,门控网络将专家特征作为输入,并为专家特征图生成权重图[W1,W2,W3,W4],其中每个权重图的大小为H2×W2。w 1+w 2+w 3+w 4=1。门控网络首先将所有专家特征图沿着通道连接起来,并使用几个卷积层和最终的softmax层将连接的特征处理成权重图。然后,我们使用权重图来生成组合特征图O:
组合的特征图O然后通过另一个MLP以在被上采样到原始图像大小之前预测分割logits。解码器的MoE设计允许网络学习更专业的特征图,并减少它们之间的干扰。对于每个像素的预测,门控函数通过权衡全局特征与局部特征的重要性来选择一组合适的特征
实验结果