摘要
这篇论文提出了一种名为 UniverSeg 的方法,它能够解决未见过的医学图像分割任务,而无需额外的训练。现有的深度学习模型通常无法泛化到新的解剖结构、图像模式或标签上。UniverSeg 利用一种新的 CrossBlock 机制,通过查询图像和定义新分割任务的示例集来生成准确的分割图。研究者们收集并标准化了 53 个开放获取的医学分割数据集,超过 22,000 个扫描,形成了 MegaMedical 数据集,用以训练 UniverSeg 处理多样化的解剖结构和成像模式。
拟解决的问题
医学图像分割是计算机视觉中的一个核心问题,但现有模型通常无法泛化到新的分割任务。临床研究人员常常面临新的分割任务,但训练或微调模型既耗时又需要专业知识和资源,这限制了科学发展。
创新之处
- UniverSeg 框架能够在不需要重新训练的情况下解决新的分割任务。
- 提出了一种新颖的 CrossBlock 机制,能够在不同尺度上转移示例集和查询图像之间的信息。
- 收集并标准化了大量的医学分割数据集,形成了 MegaMedical,以训练模型。
方法
UniverSeg 采用了类似于 UNet 的编码器-解码器结构,每个编码器层级包含一个 CrossBlock 后跟一个空间下采样操作。解码器层级则包含上采样、与编码器层级相同尺寸的表示连接,然后是另一个 CrossBlock。最终,使用一个 1x1 卷积将查询表示映射到预测结果。
CrossBlock:
旨在通过交互查询图像的特征表示和支持集中的每个图像特征表示来更新它们。这个过程使得模型能够根据少量的标记示例(支持集)来适应新的分割任务,而无需对新任务进行额外的训练或微调。
CrossConvolution 层:
- CrossBlock 使用一个 cross-convolution 层作为基础,该层负责将查询特征图 u 与支持集特征图集合 V={} 进行交互。
- CrossConvolution 的数学表达式为 ,其中 ∥ 表示在特征维度上的连接操作,Conv 是具有可学习参数 的卷积层。
CrossBlock 模块:
- CrossBlock 模块接收查询表示 u 和支持集 V 作为输入,并通过以下步骤生成更新后的查询表示 u′ 和支持集 V′:
- 对于支持集中的每个,使用 cross-convolution 层计算 ,其中 A 是非线性激活函数。
- 更新查询表示 u′ 为 的平均值,即 。
- 对于支持集中的每个 ,使用另一个卷积层 来更新 。
多尺度特征集成:
- CrossBlock 模块在编码器-解码器结构中重复使用,允许在不同的空间尺度上集成信息。在编码器路径中,每个 CrossBlock 后面跟着一个空间下采样操作。在解码器路径中,上采样后的特征图与编码器路径中的相应尺寸的特征图连接,然后再次通过 CrossBlock。