摘要:
事实证明,在临床任务中,来自一组专家的集体见解总是优于个人的最佳诊断。对于医学图像分割任务,现有的基于人工智能的替代研究更多地侧重于开发能够模仿最佳个体的模型,而不是利用专家组的力量。
在本文中,我们介绍了一种基于单一扩散模型的方法,该方法通过学习群体洞察力的分布来产生多个可信的输出。我们提出的模型通过利用扩散的固有随机采样过程,仅使用最小的额外学习来生成分割掩码的分布。我们在三种不同的医学图像模式(CT、超声和MRI)上展示了我们的模型能够在捕获其发生频率的同时产生几种可能的变体。综合结果表明,我们提出的方法在准确性方面优于现有的最先进的模糊分割网络,同时保留了自然发生的变化。我们还提出了一个新的指标来评估多样性以及分割预测的准确性,这与集体见解的临床实践的兴趣相一致。实现代码:https://github.com/aimansnigdha/AmbiguousMedical-Image-Segmentation-using-Diffusion-Models。
1 介绍
诊断是医学的核心部分,在很大程度上依赖于个体医生的评估策略。最近的研究表明,即使是最常见的健康状况,误诊导致潜在的死亡率和发病率也很普遍[32,49]。因此,减少误诊的频率是改善医疗保健的关键一步。医学图像分割是医学诊断的核心环节,对临床结果起着至关重要的作用。基于深度学习的分割网络现在在临床环境中得到了帮助,然而,文献中大多数领先的分割网络都是确定性的[17,23,34,36,41,42,44],这意味着它们预测每个输入图像的单个分割掩码。不像自然的图像,真实的事实不是
医学图像中的确定性,因为不同的诊断医师对异常的类型和程度可能有不同的看法[1,15,37,39]。因此,从医学图像中进行诊断是相当具有挑战性的,而且往往导致评分者之间的一致性很低[22,24,56]。仅依赖像素概率而忽略像素间的协方差可能导致误诊。在临床实践中,汇总多位专家的解释已被证明可以改善诊断并减少假阴性[57]。
事实上,利用多位医学专家的才能已经成为长期临床传统的一部分,如病例会议、专家会诊和肿瘤委员会。通过利用集体智慧的力量,基于团队的决策通过改进诊断提供更安全的医疗保健[32,40]。尽管集体洞察力在医疗保健领域的潜力越来越大
在提高诊断准确性方面,该方法及其含义在自动化医学视觉文献中仍然表现不佳。有人建议,在考虑临床环境中的医生工作流程的同时,使用人工智能可以优化这些流程[40]。
近年来,针对不同医学图像分割任务的专用确定性模型有了显著的改进[13,44,52 - 55,61]。确定性模型因选择最有可能的假设而臭名昭著,即使存在可能导致次优分割的不确定性。为了克服这一点,一些模型将像素不确定性纳入分割任务,然而,它们产生不一致的输出[25,26]。条件变分自编码器(Conditional variational autoencoders, c-V AE)[48]是一种条件生成模型,可以与确定性分割网络融合,通过对输入图像的潜在空间进行采样,产生无限数量的预测。概率U-net及其变体在推理过程中使用这种技术。在这里,潜在空间是从一个被训练成类似于c-V AE的先验网络中采样的[8,29,30]。这种对先验网络的依赖以及仅在分割网络的最高分辨率下注入随机性会产生较少的多样性和模糊的分割预测[46]。
为了克服这个问题,我们引入了一个单一的固有概率模型,没有任何额外的先验网络,它代表了几个专家的集体智慧,以利用诊断管道中的多个合理假设(如图1所示)。扩散概率模型是一类由使用变分推理训练的马尔可夫链组成的生成模型[21]。该模型通过隐空间对数据集的扩散过程进行建模,从而学习数据集的隐结构。通过学习反向扩散过程,训练神经网络去噪使用高斯噪声模糊的噪声图像[50]。最近,人们发现扩散模型在图像生成[14]和喷漆[35]等各种任务中都取得了广泛的成功。还提出了使用扩散模型执行语义分割的某些方法[6,59]。在这里,使用相同的预训练模型的扩散模型的每个采样步骤中的随机元素为从单个输入图像生成多个分割掩码铺平了道路。然而,尽管弥散模型在模糊医学图像分割中具有很大的潜力,但目前还没有对其进行探索。在本文中,我们提出了CIMD(集体智能医疗扩散),它解决了医学图像的模糊分割任务。首先,我们引入了一种新的基于扩散的概率框架,该框架可以从单个输入图像中生成多个逼真的分割蒙版。这是出于我们的论点,即扩散模型的随机抽样过程可以用来对多个plausi-进行抽样ble注释。随机抽样过程还消除了在推理阶段对单独的“先验”分布的需要,这对于基于c-V ae的分割模型对模糊分割的潜在分布进行采样至关重要。我们模型的层次结构也使得在每个时间步上控制多样性成为可能,从而使分割掩模更加真实和异构。最后,为了评估模糊医学图像分割模型,最常用的度量之一是广义能量距离(GED),它将地面真值分布与预测分布相匹配。在现实世界中,对于模棱两可的医学图像分割,地面真值分布的特征只有一组样本。在实践中,GED指标已被证明奖励样本多样性,而不管生成的样本的保真度或与基础事实的匹配程度,这在临床应用中可能是有害的[30]。在医疗实践中,个别评估被人工合并为单一诊断,并根据敏感性进行评估。当实时小组评估发生时,参与者在他们自己之间产生共识。最后,最小协议和最大协议之间的放射科医生也考虑在临床设置。受当前集体洞察力医学实践的启发,我们创造了一个新的度量标准,即CI评分(集体洞察力),它考虑了放射科医生的总体敏感性、普遍共识和差异。综上所述,本工作的主要贡献如下:
•我们提出了一种新的基于扩散的框架:集体智能医疗扩散(CIMD),它真实地模拟了分割掩模的异质性,而不需要任何额外的网络在推理过程中提供先验信息,这与之前的模糊分割工作不同。
•我们重新审视和分析当前评估指标的固有问题,模糊模型的GED,并解释为什么这个指标不足以捕捉模糊模型的性能。我们引入了一个受集体智慧医学启发的新指标,称为CI评分(集体洞察力)。
•我们通过三种医学成像模式证明,CIMD在定量标准方面的表现与现有的模糊图像分割网络相当或更好,同时产生优越的定性结果。
图1所示。a)确定性网络对输入图像产生单一输出。b)基于c-V ae的方法将输入图像的先验信息编码到一个单独的网络中,并从中抽取潜在变量,注入到确定性分割网络中产生随机分割掩码。c)在我们的方法中,扩散模型通过建模输入图像在潜在空间中扩散的方式来学习分割的潜在结构以及数据集的模糊性。因此,我们的方法不需要额外的先验编码器来为多个合理的注释提供潜在变量。
2. 相关工作
模糊图像分割。先前的工作[25]使用网络权重上的近似贝叶斯推理来建模歧义。然而,该方法产生的样本仅在像素之间变化,无法捕获图像的复杂相关结构
地面真值分布[29]。概率U-net能够捕获多个注释上的分布,这些注释可以从单个图像中产生各种各样的分割图[29]。该模型是Unet和条件变分自编码器的组合,该自编码器利用其随机性产生无限数量的可信假设。由于该方法只在骨干分割网络的最高分辨率下注入随机性,因此该方法产生的样本多样性有限,因此网络选择忽略来自潜在空间的随机抽取[8]。为了增加样本多样性,pi - segnet[8]和Hierarchical Probabilistic UNet[30]结合了一系列层次潜空间对特征图进行采样。他们工作的关键要素是,骨干网络依靠变分推理,通过从分布中采样来为图像产生多个注释,如果不够复杂,可能无法产生真实的样本[10]。这些c-V - ae类模型的分割掩模的多样性依赖于一个轴向的高斯潜在后验分布,该分布可能过于严格,表达能力不足,无法对丰富的变化进行建模[46]。
图像分割的扩散模型。
扩散模型最近在各种分割任务中显示出显著的潜力[2,5,6,11],包括医学图像[18,27,59,60]。事实上,扩散模型的随机抽样过程已被用于生成隐式的分割集合,最终提高了分割性能[59]。然而,模型只使用每个输入图像的单个分割掩码进行训练,因此模型无法控制变化,并且产生的掩码不一定是多样化的。据我们所知,CIMD是第一个专门设计的网络,通过利用其随机抽样过程来模拟医学图像的模糊性。此外,扩散模型的分层结构使其可以在每个时间步对模糊度进行控制,从而消除了以前方法多样性低的问题。
3 提出的方法
3.1. 扩散模型
与生成对抗网络(gan)、变异自编码器(AEs)、自回归模型和流相比,扩散概率模型近年来获得了很多关注,因为它们能够生成非常高质量的图像。由于其在从训练图像中提取关键语义方面的卓越能力,扩散模型也被用于图像分割[2,59]。此外,使用随机高斯噪声,可以生成分割的分布,而不是确定性的输出。在本节中,我们将简要概述扩散模型框架。
高斯扩散过程。扩散模型使用T时间步对马尔可夫过程进行变分推理,以学习训练数据分布p(x0)。该框架由一个正向和一个反向过程组成。在T的每个时间步长的正演过程中,高斯噪声被添加到图像x0 ~ p(x0),直到图像成为各向同性的高斯。前向降噪过程表示为:
其中(x0, x1,…), xT)表示马尔可夫链中的T步,α是控制噪声方差的噪声调度器。在反向过程中,使用神经网络(fθ)创建一系列增量去噪操作,以获得干净的图像。fθ学习反向分布p(xt−1|xt)的参数:= N (xt−1:µθ(xt, t), p θ(xt, t))。通过最小化所有时间步长正反分布之间的kl散度来获得fθ的参数。优化需要从分布q(xt|xt−1)中采样,随后需要了解xt−1。给定x0,将中间潜在变量边缘化,得到xt的边际分布为:
这里,γt = Πti=1αi。然而,通过使用后验分布q(xt|xt−1,x0),可以进一步简化减小正向和反向分布之间的KLdivergence[47]。在马尔可夫假设下,后验分布可以使用Eq. 1和2导出,
在那里,µ(xt, x0) =√γt−1(1−αt) 1−γt x0 +√αt(1−−1)γt 1−γt xt和σ2 =(1−−1)γt(1−αt) 1−γt。然后在反马尔可夫链的参数化期间利用该后验分布来制定反链的对数似然的变分下界。在优化过程中,两个分布q(xt−1|xt, x0)和p(xt−1|xt)的协方差矩阵被认为是相同的,分布的均值由fθ预测。去噪模型fθ以噪声图像xt为输入,表示为:
式中,λ = N (0, I)。此时,p与q的组合为变分自编码器[28],变分下界(Vlb)可表示为:
但是,培训目标可以进一步简化为:
其中,λ = N (0, I)。现在,对数似然被认为是评估生成模型的一个很好的度量,优化对数似然已被证明可以迫使模型达到cap-真实所有的数据分布[43],提高样本质量[20]。因此,结合式5和式9,我们得到混合损失[38],
其中λ为正则化参数,用于防止Lvlb压倒Lsimple。推理从高斯噪声xt开始,在每个时间步长迭代去噪得到xt−1,如下所示:
3.2. 集体智能医疗扩散
设b为给定的图像,尺寸为C × H × W, xb为相应的分割掩码。在经典的扩散模型中,需要输入图像xb进行训练,这将导致在推理过程中从噪声中采样时产生任意分割掩码x0。与此相反,为了生成给定图像b的分割掩码xb,0,需要将一个额外的通道连接到输入。这通过将其连接为xb之前的图像来诱导解剖信息,从而定义X:= b⊕xb。在降噪过程q中,仅在ground truth segmentation xb中加入噪声。由于采样过程是随机的,扩散模型对图像b产生不同的分割掩码xb,0。当每个输入图像只使用一个分割掩码训练扩散模型时,模型可以隐式地生成一个分割掩码集合,可用于提高模型的性能[59]。
现在,我们使用模糊建模网络(AMN)对基础事实的模糊性进行建模。AMN对给定输入图像的地面真值掩模的分布进行建模。
在给定图像b和真实值xb的情况下,我们通过用ν参数化AMN的权重,将分割掩码的这种模糊性嵌入到潜在空间中。表示为Q的概率分布被建模为高斯分布,其平均值为µ(b, xb;ν)∈RN,方差σ(b, xb;ν)∈RN×N,其中N为低维潜在空间。潜伏空间的特征是,
同样,我们使用模糊控制网络(ACN)对预测掩码的模糊度进行建模。ACN通过对输入图像进行扩散模型调节来模拟噪声输出。对于每个时间步t,假设φ xb = fθ(≈xb, t),我们通过参数化ACN的权值来估计扩散模型的模糊性,ω作为概率分布P,平均值为µ(b, φ xb;ω)∈RN,方差σ(b, x_b;ω)∈RN×N公式如下
AMN和ACN网络均采用具有对角协方差矩阵的轴列高斯分布建模。两个网络的架构细节可以在附录中找到。我们通过施加Kullback-Leibler散度来惩罚两个分布之间的差异,
最后,通过修改Eq. 10,将所有损失合并为正则化因子β为的加权和
在采样过程中,对于Xt:= b⊕xb,t, Eq. 11修正为:
式中,z = N (0, I), t = t,…1。所提出的方法的图形模型如图2所示。
图2。我们的方法的a)抽样和b)训练过程的图形模型。在训练阶段,对于每一步t,通过将输入图像b添加到噪声分割掩模xb,t中来诱导解剖结构。对不同高斯噪声采样n次,生成n个不同的似是而非的掩模。
图3。比较定性分析与两种基线方法-概率U-net[29]和pi - seg[8]。左侧显示了来自LIDC-IDRI数据集的样本图像,其中包含4个可用的专家评级。请注意,空分割掩码也是有效的分级。为了公平的比较,我们只从分割网络中可视化前4个采样的分割掩码。
图4。LIDC-IDRI肺CT数据集的GED与CI评分的可视化分析。可以观察到,即使不能分割大部分病变,但对于ph - seg, GED也较低。然而,在分割下,组合灵敏度受到惩罚,因此在这种情况下CI评分较低。红色代表较好,蓝色代表较低。
3.3. 集体洞察力评分
综上所述,模糊分割模型产生的是预测的分布,而不是确定性的分布,并根据基础事实的分布进行评估。虽然广义能量距离(GED)之前已被用于评估模糊分割模型,但该度量被发现是不充分的,因为它不成比例地奖励样本多样性,而不管其与地面真实样本是否匹配[30]。这可能是潜在的危险,特别是在病理病例中。在图4中,我们可以观察到即使CIDM输出质量更好,GED是如何过度奖励pi - seg的。为此,我们提出了另一种评估指标,称为CI分数(集体洞察力),并在本节中解释了该指标每个组成部分背后的动机。CI评分定义为:
式中,Sc为组合灵敏度,Dmax为最大骰子匹配得分,Da为多样性一致性得分。CI取各分量的谐波平均值,使各分量的权重相等。在下面节中,真阳性、假阴性、假阳性分别记为tp、fn、fp。所有基础真理的集合表示为Y = {Y1, Y2,…, YM}其中Y1, Y2,…, YM对应于每个样本的个别基础真值。这里M是基础真理的个数。同样,所有预测的集合记为:Y1, Y2,…, YN}其中Y1, Y2,…, n对应于每个样本的单独预测。这里N是预测数。虽然基础真理的数量是有限的,但模型可以产生无限数量的预测,因此M和N不一定相等。图6中的可视化图表说明了每个组件的操作。
结合敏感性。在临床实践中,所有来自不同评分者的诊断被合并成一个单一的集体决策。然后通常根据真阳性率(敏感性)评估最终决定[16]。在医学诊断的许多分支中,主要目标是最大限度地提高真阳性率,同时保持可容忍的假阳性率[3,33,58]。因此,我们认为评估综合敏感性直接符合共同临床实践的利益。由于空基础真理也是一个有效的预测,我们认为在这些情况下敏感性为1。首先,我们定义了组合地面真值Yc,它是所有地面真值映射的并集。类似地,我们定义组合预测- Yc,它是所有预测映射的并集。Yc和Yc的数学表达式为:
我们计算组合预测和组合基础事实之间的组合灵敏度Sc如下:
最大骰子匹配。在医学诊断案例中,空集表示没有异常也是有效的诊断。然而,在这种情况下,Dice指标将是未定义的,因此我们在这些情况下设置Dice = 1。因此,
Dice得分定义为:
在集体智能实践中,通常会对学生与专家的诊断进行评估[7,31]。我们通过计算所有基本真理的个体预测的骰子分数,然后计算所有这些对中的最大骰子分数来模拟这个过程。首先,我们定义每个单独的基础真理Yi的所有Dice分数Di的集合如下:
其中Di是每个基础真理Yi和所有提供的预测之间计算的骰子分数的集合。然后,我们取这个集合中的最大骰子分数,并将其平均值作为最大骰子匹配Dmax。Dmax的公式如下:
多样性的协议。对于模棱两可的模型,预测输出的多样性的评估可能是棘手的。
不成比例地奖励多样性,而不管它们与地面真实样本是否匹配,可能会产生误导。另一方面,预测样本缺乏多样性表明模型是确定性的,而不是随机的。因此,我们考虑匹配两个评级者之间的最大和最小方差,因为它们分别表示两个评级者之间的最小一致性和最大一致性。在这里,我们首先计算单个输入图像的地面真值分布中所有对之间的方差。然后,我们取最小方差和最大方差。我们定义最小方差为vymin,最大方差为vymax。类似地,我们计算该输入的预测分布中所有对之间的方差,并取最小和最大方差。分别定义为V * Ymin和V * Ymax。对于特定输入,真实值的最小方差与预测分布的差值可以表示为∆Vmin = |V Ymin−V Ymin|。类似地,特定输入的真实值和预测分布的最大方差之差表示为∆Vmax = |V Ymax−V Ymax|。最后,我们将多样性协议Da定义为:
4. 实验
4.1. 数据集
肺病变分割(LIDC-IDRI)。这个公开可用的数据集包含来自1010名受试者的1018个肺部CT扫描,并有四位领域专家的手动注释,使其很好地代表了典型的CT图像歧义[4]。共有12名放射科医生提供了注释此数据集的掩码。我们在第二次阅读后使用数据集,向专家展示其他放射科医生的注释,使他们能够做出新的调整。训练集包含13511张病灶图像,测试集包含1585张病灶图像,有4个专家分级。
骨表面分割(B-US)。超声(US)成像的骨分割通常导致较低的图像一致性[19]。在获得机构审查委员会(IRB)批准后,从30名健康受试者中收集了2000张美国扫描图。使用Sonix-Touch美国机器(Analogic Corporation, Peabody, MA, USA)使用2D C5-2/60曲线探头和L14-5线性探头收集扫描结果。深度设置和图像分辨率分别在3-8 cm和0.12-0.19 mm之间变化。
所有收集到的扫描图像都由一名超声专家和三名接受过骨分割训练的新手手工分割。训练集包含1769个骨超声扫描,测试集包含211个骨超声扫描。
多发性硬化病灶分割(MS-MRI)。该公开数据集包含来自5名受试者的84次纵向MRI扫描,平均4.4个时间点[12]。
与MS相关的白质病变由两个领域的专家评分者描述,一个有4年的经验,另一个有10年的经验。两位专家都不知道核磁共振扫描的时间顺序。从体积MRI中,我们将每个切片转换为具有相应分割掩码的二维图像。每个数据点包含质子密度(PD), Flair, MP RAGE和T2 MRI扫描。
训练集包含来自4名患者的6012次扫描,测试集包含来自1名患者的1411次扫描。
4.2. 实现细节
提出的方法是使用PyTorch框架实现的。我们将所有实验的时间步长设置为T = 1000,并采用线性噪声调度。使用学习率为10−4的Adam优化器对类u - net扩散模型的权重和偏差进行优化。对于所有的实验,λ = 0.001被设置为正则化Lvlb。我们还设置β = 0.001,以防止Lamb压倒Lsimple和Lvlb。我们选择LIDC-IDRI的分辨率为128 × 128, Bone-US的分辨率为256 × 256, MS-MRI数据集的分辨率为64 × 64。对于MS-MRI,我们将所有四个MRI扫描连接起来,并在将其输入扩散模型之前将其用作图像。
模型中其他扩散参数与[38]相同。
4.3. 评价指标
广义能量距离。模糊图像分割任务中常用的度量,通过比较分割分布来利用观测值之间的距离[29]。它由[9,45,51]给出,
图5。两种基线方法Probabilistic U-net[29]和pi - seg[8]的比较定性分析。左侧显示了Bone-US数据集的例子,其中有1个专家和3个新手等级。骨-美国数据集在评分者之间的差异相对较小。我们从预测分布中抽取前4个分割掩码。
表1。比较所有具有最先进模糊分割网络的数据集在GED、CI和Dmax方面的定量结果。最好的结果是在Bold中,我们在所有数据集的Dmax和CI得分方面取得了最先进的结果。
图6。每个组成部分的可视化表示a)综合灵敏度,b)骰子匹配,以及c)提议的CI评分指标的多样性一致性。GT表示基本事实,Pred表示预测。这里,真值M = 4。在c)中,我们只展示了基础真值分布的方差,然而,在实践中,我们计算了基础真值和预测分布的方差。
式中,d对应距离测量值d(x, y) = 1 - IoU(x, y), y和y '是Pgt的独立样本,S和S '是从Pout中采样的。能量越低,表明预测结果与实际分割的真值分布越吻合。
4.4. 与基线方法的比较。
据我们所知,目前还没有其他研究明确地考虑对医学图像的模糊性进行建模,从而使用扩散模型生成多个分割图。我们将我们的方法与当前最先进的方法进行比较,这些方法专门用于捕获多模态分割的分布。
概率U-net及其变体。我们报告了目前最先进的模糊医学图像分割网络概率U-net方法的结果[29]。
我们使用本文中报道的相同参数为LIDC-IDRI数据集训练了一个概率U-net。对于Bone-US和MS-MRI,我们用β = 10训练概率U-net,直到损失没有改善。此外,我们比较了概率U-net的一种变体,即广义概率U-net[10],其中不是使用轴向高斯分布来建模先验和后验网络,而是使用全协方差高斯分布的混合。PHi-Seg。概率Unet的主要问题之一是预测样本缺乏多样性,因为随机性只注入到最高分辨率。为了解决这个问题,PHi-Seg[8]采用了一种受拉普拉斯金字塔启发的分层结构,该模型通过不断提高分辨率对分布进行细化,从而产生条件分割,从而产生质量更好的样本。我们使用论文中报告的参数对所有数据集训练pi - seg。
定量比较:我们同时考虑GED和CI用分数来评价不同的模糊医学图像分割模型的性能。我们将预测分布中的4个样本的结果制成表1。我们还分别报告了最大双匹配分数。我们的方法在Dmax和CI得分方面优于其他最先进的网络。就GED而言,我们的表现与概率U-net不相上下。Dmax得分高表明生成的样本与地面真值分布匹配良好,CI得分确保样本多样性与地面真值多样性匹配。
定性比较:由于模糊网络的评估很难表征,我们认为定性结果可以是网络性能的一个很好的指标,特别是对于困难的情况。我们在图3、5和7中显示了来自所有模型的测试数据集的预测。可以看出,与之前的最先进的方法相比,CIMD在视觉上取得了更好的效果和多样化的结果。从图3可以看出,该模型能够捕获空白的频率,并在困难的情况下保持多样性。如图5所示,CIMD在超声模态上的工作效果特别好,误差最小。从图7可以看出,CIMD能够捕获所有的病变,即使它们的结构很小,同时保持分割掩模的多样性。由于CIMD在每个层次特征表示中注入了随机性,因此它在所有数据集中都表现出多样化和准确的分割。
5. 讨论
消融研究 对于消融研究,我们评估了提出的贡献。特别地,我们将我们的贡献与原始的DDPM模型进行比较,这是固有的随机的,因此能够从单个输入图像生成多个分割掩码。我们在消融研究中详细论证了其贡献。
DDPM用于分割。我们报告了两组基于ddpm的分割结果。DDPM-det- seg指的是使用输入图像的所有分割掩码的平均值来训练DDPM的模型。DDPM- probseg是指对一个输入图像用不同的分割掩码训练DDPM。LIDC数据集的结果如表2所示。可以看出,尽管DDPM采样过程是随机的,但生成的分割掩码分布不够多样化,与地面真值分布也不相似。额外的消融结果在补充。
局限性:虽然我们提出的方法产生多样化但有意义的预测,但由于扩散过程的固有性质,它在训练和推理方面相当缓慢。此外,训练一个模糊分割模型需要来自多个放射科医生的注释,这既昂贵又耗时。在未来,我们计划扩展我们的方法,试图解决这些限制,同时也将方法扩展到更多的模式和3D体积数据集。
6. 未来工作及结论
在这项工作中,我们引入了一个基于扩散的模糊分割网络,它可以从单个输入图像中生成多个可信的注释。与传统的基于cV ae的网络不同,CIMD使用其分层结构在每一层都包含随机性,并且在推理阶段不需要单独的网络来编码图像的先验信息。我们的方法可以用最少的额外训练整合到任何基于扩散的框架中。对于未来的工作,CIMD可以扩展到更一般的计算机视觉问题,以及测试其他医学成像模式。最后,我们的方法可以结合到其他专门的基于扩散的分割网络中,例如MedSegDiff [60], SegDiff[60]等,以获得更高保真度的分割输出。