小罗碎碎念
这篇文章是关于一项名为DeepHRD的深度学习平台的研究,该平台能够从常规的苏木精-伊红(H&E)染色组织切片中预测同源重组缺陷(HRD)和铂类药物反应。
作者角色 | 姓名 | 单位 |
---|---|---|
第一作者 | Erik N. Bergstrom | 加州大学圣地亚哥分校Moores癌症中心 |
通讯作者 | Ludmil B. Alexandrov | 加州大学圣地亚哥分校Sanford干细胞研究所 |
通讯作者 | Scott M. Lippman | 加州大学圣地亚哥分校Moores癌症中心 |
HRD的癌症可以从铂类药物和聚(ADP-核糖)聚合酶(PARP)抑制剂中获益,但标准的HRD检测需要分子分析,这并不普遍可用。
研究团队训练了DeepHRD,使用来自癌症基因组图谱(TCGA)的1,008个乳腺癌和459个卵巢癌样本。DeepHRD与四种标准的HRD分子测试进行了比较,使用了来自多个独立数据集的349个乳腺癌和141个卵巢癌样本,包括接受铂类药物治疗的临床队列。
研究结果显示,DeepHRD在TCGA中乳腺癌切片的HRD预测上表现出0.81的AUC(95% CI, 0.77至0.85),并在两个独立的原发性乳腺癌队列中确认了这一性能(AUC, 0.76 [95% CI, 0.71至0.82])。在外部铂类药物治疗的转移性乳腺癌队列中,被预测为HRD的样本显示出更高的完全缓解率(AUC, 0.76 [95% CI, 0.54至0.93]),中位无进展生存期(PFS)增加了3.7倍(14.4个月对比3.9个月;P=0.0019),风险比(HR)为0.45(P=0.0047)。在三个乳腺癌队列中,非铂类药物治疗效果与预测的HRD状态没有显著差异。
DeepHRD还能够通过迁移学习预测高级别浆液性卵巢癌(HGSOC)的HRD样本,在两个队列中,经过一线(HR, 0.46; P=0.030)和新辅助(HR, 0.49; P=0.015)铂类药物疗法后,总体生存期(OS)更好。
研究结论是,DeepHRD可以直接从常规H&E切片中预测乳腺癌和卵巢癌的HRD,跨越多个外部队列、幻灯片扫描仪和组织固定变量。与分子测试相比,DeepHRD分类了1.8至3.1倍更多的HRD患者,这些患者在高级别浆液性卵巢癌中显示出更好的OS,以及在转移性乳腺癌中对铂类药物特异性的PFS。
文章还讨论了DeepHRD在临床诊断中的潜在应用,包括在资源受限和医疗服务不足的地区,以及在需要快速检测HRD以指导治疗决策的临床试验中的潜在价值。研究还指出,DeepHRD作为一种预测生物标志物用于治疗决策,特别是在铂类药物治疗中,需要在专门设计的试验中进一步研究。
一、引言
精准肿瘤学旨在通过首先识别患者肿瘤中的分子缺陷,然后针对这些缺陷,为每位癌症患者最优选择治疗方法。1
乳腺癌和卵巢癌的机制研究和临床试验表明,同源重组修复缺陷(HRD)使得肿瘤对铂盐和聚(ADP-核糖)聚合酶(PARP)抑制剂具有选择性的治疗敏感性。2,3
传统上,HRD被认为是由BRCA1和BRCA2的遗传变异、体细胞突变或表观遗传调控失调引起的。2此外,同源重组途径的其他基因(如PALB2和RAD51)的缺陷也可能导致HRD。4,5重要的是,携带HRD的癌症表现出特定的基因组不稳定模式、基因表达和体细胞突变特征。8
美国食品和药物管理局(FDA)已批准两种HRD伴随诊断(CDx)测试,用于卵巢癌和乳腺癌患者。3,9Myriad myChoice CDx和FoundationOne CDx通过量化基因组不稳定性与BRCA1/2状态相结合来确定HRD。10,11此外,已开发和使用了多种研究和临床实验室改进修正案(CLIA)认证的测试,用于检测乳腺癌和卵巢癌中的HRD。3,5,9,12-16
值得注意的是,几种机器学习方法已使用COSMIC单碱基替换签名3(SBS3)在临床环境中检测HRD。4,12,13
目前,临床上检测HRD的所有方法都依赖于分子剖析,导致临床工作流程瓶颈,这主要归因于可用于分子检测的足够且适宜的组织样本的可用性,以及总体时间和成本。3,16-18
例如,一项CLIA认证的基因组测试每位患者的费用为3000美元,且在组织病理学诊断后还需额外4-6周时间。3,17,18,20这限制了分子诊断在标准治疗和临床试验中的广泛应用,1不成比例地影响了未被充分服务的群体和资源受限的临床环境。9,18,21
尽管基于测序的诊断方法的使用受限,1,16但肿瘤活检在全世界临床实践中常规处理,通过光学显微镜形态学审查苏木精-伊红(H&E)染色的组织进行实体肿瘤诊断。18,19,22,23
在过去的5年里,人工智能(AI)方法在预测H&E染色组织病理学切片的数字图像中的基因组变化方面取得了爆炸性进展,这些变化可能引发临床行动。24
一些例子包括检测胃肠癌中的错配修复缺陷24-26以及与HRD相关的基因组评分,27BRCA1/2突变,28或乳腺癌和卵巢癌中SBS3的存在。23,26
然而,以前的AI方法尚未在多个外部队列中显示出临床实用性,23既能检测基因组靶点,又能预测临床结果的差异。24
作者提出的DeepHRD,是一种基于深度学习的分类器,能够直接从乳腺癌和卵巢癌的数字化H&E切片中检测HRD。作者在来自癌症基因组图谱(TCGA)项目的数据上训练和验证DeepHRD,并展示其使用外部数据集检测HRD的能力。
重要的是,通过分析多个独立患者队列的治疗结果,作者证实DeepHRD能够检测比当前分子测试更多的HRD患者,且DeepHRD预测的HRD样本对铂类药物的完全反应(CR)和生存结果更好。
二、方法
2-1:研究设计
作者实施了DeepHRD,一种弱监督卷积神经网络架构(图1),用于从四个乳腺癌队列的H&E切片的全切片图像(WSIs)中预测基因组HRD及预测HRD状态下的结果差异(数据补充,表S1,仅在线提供)。
FIG 1展示了用于从组织病理学幻灯片中检测HRD的多分辨率卷积神经网络(CNN)架构。这个架构分为两个主要部分:训练DeepHRD模型(A部分)和使用训练好的模型进行HRD预测(B部分)。
在训练部分(A部分):
- 每个全幻灯片图像(WSI)首先经过预处理和质量控制,包括组织分割、过滤非聚焦组织,并最终将含有组织的区域切成5倍放大的小块(tiles)。
- 这些小块通过第一个多实例学习(MIL)ResNet18 CNN进行处理,该网络使用每个图像中预测分数最高的前25个小块的平均值作为WSI的预测分数。
- 为了减少过拟合,在整个训练过程中的全连接层引入了dropout技术,并在推理过程中也使用dropout技术来模拟蒙特卡洛dropout,以计算最终WSI预测的置信区间(CIs)。
- 利用特征提取层的倒数第二层的小块特征向量,通过主成分分析降维,并使用定制的k-means聚类模块来确定每个样本的最佳聚类数量,以自动选择感兴趣的区域(ROI)。
- 选定的小块在20倍放大下重新采样。
- 使用与第一个模型相同的架构训练第二个MIL-ResNet18模型,并将两个模型的平均预测结果聚合,以得出单个WSI的最终预测分数,并据此计算CIs和置信度阈值。
在使用部分(B部分):
- 应用训练好的DeepHRD模型对单个WSI进行HRD预测,为个体患者的活检提供最终预测分数,并据此进行计算基础的诊断,以指导后续的临床行动。
这个CNN架构的关键在于多分辨率处理和多实例学习,这使得模型能够在不同放大倍数下捕捉到组织切片的特征,并提高对HRD状态预测的准确性。通过这种复杂的网络设计,DeepHRD能够为病理学家提供快速、准确的HRD状态预测,从而辅助临床决策。
使用来自1,008例TCGA乳腺癌(FF切片)和1,055例TCGA乳腺癌(FFPE切片)的数据对多个DeepHRD模型进行了训练和内部验证(数据补充,图S1)。
FF乳腺癌模型在外部临床蛋白质组肿瘤分析联盟(CPTAC31;n=116)和分子乳腺癌国际分类学(METABRIC32;n=156)的乳腺癌原发灶中进行了外部验证(数据补充,图S2A)。
FFPE乳腺癌模型在一个具有全外显子测序(WES)和数字H&E WSIs的外部转移性乳腺癌队列(MBC;n=77)中进行了测试,这些数据来自Georges-François Leclerc癌症中心。
所有77例患者均接受了铂类药物的治疗,其中54例患者首先接受了紫杉烷类药物的治疗。每种治疗依次给予,并通过每2-3个月使用RECIST1.1进行临床和放射学评估,分别评估每种治疗的完全反应(CR)和无进展生存期(PFS)终点(数据补充,图S2B)。33
分别使用459例TCGA卵巢癌(FF切片)的数据训练了单独的模型,并考虑了是否整合迁移学习。
FF卵巢癌模型在一个外部真实世界队列中进行了测试,该队列包括141例接受新辅助化疗后进行间歇性减瘤手术(NACT-IDS)的高级别浆液性卵巢癌(HGSOC)患者。35
这些数据之前由纪念斯隆-凯特琳癌症中心(MSKCC)独立生成,并从接受铂类药物NACT-IDS的III-IV期患者中回顾性地收集了DeepHRD分析所需的WSIs、临床注释、知情同意和靶向基因组测序(MSK-IMPACT)。所有其他队列都有WES和微阵列基因分型数据,用于计算基因组HRD评分(数据补充,图S1)。
DeepHRD模型以下列三种切片形式进行训练,从而预测HRD状态:
(1)乳腺癌FFPE切片;(2)乳腺癌FF切片;(3)卵巢癌FF切片
在所有情况下,DeepHRD模型仅使用FF切片或FFPE切片进行训练。仅使用原发癌训练DeepHRD模型。由于FFPE切片对临床实践更为相关,因此所有临床评估都是通过将完全训练的DeepHRD模型应用于FFPE切片来进行的。来自TCGA、CPTAC、METABRIC和MSKCC的组织切片使用Aperio ScanScope系统进行数字化。MBC队列使用Hamamatsu Photonics NanoZoomer系统进行数字化。
2-2:基因组HRD评分及相关遗传标记
HRD评分是从测序或基因分型数据中计算得出的,如之前使用scarHRD报告的。
传统上,对于三阴性乳腺癌,使用HRD评分≥42进行治疗,而对于卵巢癌,使用HRD评分≥63进行治疗。37
为了防止模型过于自信,作者在训练过程中对地面真实HRD评分实施了软标签。具体来说,HRD评分截止值设定在30(即乳腺癌的中值评分),将评分≥50的乳腺癌视为同源重组缺陷,而评分<10的样本视为同源重组熟练(HRP),分别反映上四分位数和下四分位数。其余乳腺癌(评分10-50)使用以30为中心的软标签进行建模,样本缺陷或熟练的概率相等且对称。卵巢癌也采用了类似的训练方法(数据补充)。
WES数据中BRCA1/2和24个其他HRD相关基因突变的致病性是通过之前报告的方法在多个数据库中进行筛选确定的。33对于MSKCC的HGSOC队列,致病性是通过包含24个额外HRD相关基因中的10个的FDA批准的MSK-IMPACT测序面板确定的。
基于机器学习工具SigMA的高置信度预测来确定SBS3的特征存在,SigMA用于基于SBS3检测HRD状态,具有1%的假阳性率和50%的敏感性。13对于MSKCC卵巢癌队列,仅分析了使用SigMA进行分析的突变数超过五个的样本。
2-3:训练工作流程
DeepHRD是一种弱监督的多实例学习方法(图1A)。22,38
具体来说,对于每个带有HRD标签的WSI样本,该WSI的所有分割区域(称为tiles)都根据样本的分类被赋予一个弱标签。假设在负标签样本中的所有tiles都是HRP,而在正标签样本中至少有一个tile表现出HRD表型。这些假设使得模型可以在不需要详细的病理学家手动注释的情况下,仅使用整个图像的单个分类标签进行训练,这些注释对于基因组HRD的存在并未完全特征化或常规评估。21
DeepHRD基于多分辨率决策设计,旨在模仿病理学家使用的标准诊断协议,该协议在低倍率(53倍)下进行初步预测,然后自动选择感兴趣的区域(ROIs)在高倍率(203倍)下进行二次预测(图1A)。38
此外,DeepHRD将单个tile的预测映射回原始WSI,这允许可视化组织区域对于获得预测的相对空间重要性(图1B)。最终模型包含五个相同架构的集合,每个都产生多分辨率预测分数。这些分数的平均值用于对每个组织切片做出最终预测。
由于处理整个WSI的计算成本较高,每个切片首先被分割成更小的256×256像素的tiles,每个像素在53倍分辨率下包含2毫米的组织。
去除模糊的tiles和那些含有少于80%组织像素的tiles(图1A)。对于模型的两个阶段,都训练了ResNet18卷积神经网络以从构成单个WSI的tiles中提取特征。从最后一个全连接层的编码特征用于在53倍分辨率下自动选择ROIs。
具体来说,编码特征通过主成分分析进行投影,然后使用k-means聚类将每个tile表示分组。选择包含最大预测概率ROI的簇中的tiles。最终的ROIs在203倍放大率(每个像素0.5毫米)下进行分割,并用于训练和测试第二个模型。
在WSI的推理过程中,取顶部25个tiles的平均值来计算在给定分辨率下的最终预测分数。为了防止训练过程中的过拟合,ResNet18架构的全连接层中的节点实施了随机dropout。
类似地,在推理过程中,对单个WSI进行多次推理传递并在全连接层中随机dropout节点,以模拟不确定性。对于给定的WSI,预测的分布被平均以计算最终分数并导出置信阈值(图1A;数据补充)。
训练完DeepHRD模型后,该工具将产生一个带有置信区间(CIs)的计算预测分数,可用于使用单个诊断WSI对个体患者进行治疗建议(图1B)。
2-3:统计分析
DeepHRD的性能通过比较受试者操作特征曲线(ROCs)并计算曲线下面积(AUC)来评估。
每个模型的性能是通过使用每种癌症的标准二元阈值分数来计算的。置信区间是通过非参数重采样得出的。生存曲线的比较是通过log-rank检验实现的。使用Cox回归进行了多变量分析以计算风险比。组织和细胞类型富集的比较是通过双向Mann-Whitney U检验实现的。
三、结果
作者通过分离TCGA乳腺癌样本训练了DeepHRD乳腺癌模型,其中70%用于训练,15%用于调整训练参数,15%留作测试最终模型(数据补充,图S1)。
分别训练了两个独立模型,一个用于FF组织切片,另一个用于FFPE组织切片。
在训练前,对每个乳腺癌PAM50分子亚型中的HRD和HRP样本数量进行了平衡,以防止学习亚型特异性的组织学特征(数据补充,图S1),这是本设置中的一个主要混杂因素。23,27
所有在初始训练集中因平衡程序而移除的样本都被添加到留出的测试集中,最终使得FFPE和FF模型的训练比例(分别为62%和59%)和留出的测试比例(分别为38%和41%)发生了变化。重要的是,模型是在没有与任何训练和留出队列的患者重叠的情况下独立于留出的测试集进行训练的。
每个模型都允许使用单个数字切片进行患者级别的预测。具体来说,DeepHRD预测癌症是HRD还是HRP,并在数字切片上叠加一个概率掩模,从而允许随后的组织病理学调查(图1B)。
将DeepHRD的FF模型应用于留出的TCGA样本(n=414)时,得到了0.81的AUC(95% CI,0.77至0.85;图2A)。
当将乳腺癌FFPE模型应用于留出的TCGA集(n=406)时,观察到相同的AUC为0.81(95% CI,0.77至0.86;图2A),其性能与乳腺癌FF模型相似(数据补充,表S2),并且所有PAM50分子亚型结果一致(图2B)。
FF模型的一般性通过将其应用于CPTAC(n=116)和METABRIC(n=156)的乳腺癌切片得到进一步确认,得到的AUC为0.76(95% CI,0.71至0.82;图2A)。
将DeepHRD FFPE模型应用于外部铂治疗转移性乳腺癌(MBC)队列(n=77)时,结果显示HRD和HRP患者的平均PFS分别为14.4个月和3.9个月,相差3.7倍(P=0.0019,log-rank检验),调整分子亚型和诊断年龄后的风险比(HR)为0.45(95% CI,0.26至0.78;P=0.0047;图2C)。
DeepHRD能够检测出完全反应(CR)的癌症,而不仅仅是部分反应或无反应,其AUC为0.76(95% CI,0.54至0.93;图3A)。AI预测的HRD和HRP组之间的RECIST监测间隔中位数无统计学意义(P>.05)。
与DeepHRD相比,基于BRCA1/2突变、基因组衍生的HRD评分在不同阈值下或SBS3的分离并未在PFS上产生显著差异(P>.05;图2C)。
尽管通过扩展HRD基因面板中的致病突变进行分层也导致了显著的PFS差异(P=0.038;图2C),但DeepHRD将1.8倍更多的患者分类为HRD(优势比[OR],2.1;P=0.086,Fisher精确检验)。
值得注意的是,TCGA和MBC组织切片使用了不同的扫描器进行数字化,这进一步证明了作者的平台在AI算法开发中已知的技术混杂因素下的普遍适用性。22,23
在三个乳腺癌队列中,根据DeepHRD预测的HRD状态,作者未发现非铂治疗结果有显著差异(图3)。
具体来说,深度学习HRD预测并未提高CR率(AUC,0.39;图3A)或在紫杉烷治疗的MBC(n=54)中PFS有显著差异(HR,0.98,P=0.95;图3B),这与MBC中紫杉烷与铂相比的III期临床试验样本的基因组HRD生物标志物PFS分析一致。39,40
此外,在两个未接受化疗的原发性乳腺癌队列中,预测的HRD状态对PFS或无复发生存期也没有显著影响(图3C和3D),这与最近的基因组HRD报告一致,41包括对铂、PARP抑制剂、紫杉烷和其他药物治疗的全面meta分析,发现基因组HRD患者的改善结果仅限于铂和PARP抑制剂治疗。42
为了揭示DeepHRD在预测乳腺癌HRD时使用的组织特征,作者使用预训练的语义分割模型43,44注释了所有留出的TCGA和MBC FFPE切片,并比较了HRD和HRP预测的tiles。
在原发性和转移性乳腺癌中,HRD预测组织的空间区域富含坏死-肿瘤性和巨噬细胞密度(数据补充,图S3)。在原发性乳腺癌中,HRD预测区域还富含高密度炎症组织(数据补充,图S3)。
为了评估DeepHRD是否也可用于卵巢癌,作者通过对TCGA的HGSOC样本进行迁移学习,使用来自FF乳腺癌模型的预训练权重和偏差训练了一个独立的FF卵巢癌模型(图4A)。
为了评估DeepHRD卵巢模型区分受益于铂治疗个体的能力,该模型被应用于66例TCGA HGSOC样本,这些样本在初次减瘤手术后接受了第一线铂治疗(数据补充,表S3)。
经肿瘤分期和诊断年龄调整后,预测为HRD和HRP的患者中位生存期分别为4.6年和3.2年(HR,0.46[95% CI,0.23至0.93];P=0.030)(图4B)。
相比之下,使用没有迁移学习的基线模型进行区分时,作者观察到区分效果较差(HR,0.51[95% CI,0.25至1.03];P>0.05;图4C)。
基于BRCA1/2突变、26基因HRD面板或SBS3的区分并未导致整体生存(OS)差异显著(P>0.05;图4C)。根据HRD评分≥63进行分层导致了显著的OS差异,但仅标注了由DeepHRD检测到的HRD患者的一半(OR,3.0;P=0.0045,Fisher精确检验;图4C)。
然后,作者将DeepHRD卵巢FF模型应用于一个外部的真实世界铂治疗NACT-IDS队列(n=141)35。根据DeepHRD的预测将这些患者分类为HRD或HRP,结果显示3年OS概率分别为70.3%和50.2%,调整分期和诊断年龄后的HR为0.49(95% CI,0.28至0.87;P=0.015;图5A)。
DeepHRD将HRD患者的分类数量提高了3.1倍,超过了使用扩展的HRD相关基因突变进行分类的数量(OR,4.7;P<1E-5,Fisher精确检验;图5A)。BRCA1/2突变或SBS3的存在并未在真实世界队列中导致显著的OS差异(P>0.05;图4A)。
最后,作者评估了将不确定评分范围作为DeepHRD的第三分类输出是否能够提供性能提升。尽管移除落在不确定范围内的患者略微提高了检测基因组HRD评分的AUCs(数据补充,图S4),但它也负面影响了对所有铂治疗队列的临床预测(数据补充,图S5)。因此,作者决定不将不确定范围作为DeepHRD的一部分。
四、讨论
DeepHRD分类器在乳腺癌和卵巢癌中对HRD的检测表明,基于数字H&E切片部署AI指导在临床诊断中的实用性。
多个外部队列的结果表明,作者的深度学习框架适用于常规切片的组织块,且在不同的数字扫描仪和组织固定程序中保持一致,并且可以跨癌症类型泛化。
在铂治疗转移性乳腺癌的外部队列中,DeepHRD的临床预测表现优于现有的分子测试,尤其是在捕捉对铂治疗有反应的BRCA1/2野生型肿瘤方面。重要的是,结果证实了DeepHRD的稳健性和泛化能力,因为AI方法是在原发性乳腺癌的手术切除上训练的,并能够成功预测转移性乳腺癌核心活检的临床结果。
然而,与其他HRD生物标志物一样,受益人群是分散的,一些被标注为HRP的患者也可能从铂治疗或PARP抑制剂中受益。
通过引入迁移学习,DeepHRD能够比现有的分子测试更有效地将HGSOC分类为HRD,并且预测为HRD的患者在铂一线治疗(初次减瘤手术后)和NACT-IDS队列中的总生存期(OS)显著更高。后者的结果尤为显著,考虑到HRD在指导剂量密集型新辅助铂治疗中的潜在价值。5
然而,由于缺乏其他队列、治疗和结果的数据,作者无法确定这种真实世界卵巢癌队列中的治疗效果是否特定于铂类药物。此外,最近一项卵巢癌三期关键试验的生物标志物分析发现,基因组HRD的效用主要是预后性的。45
未来,DeepHRD可能潜在地应用于前列腺和胰腺腺癌,16,17这是另外两种HRD常见且临床可操作的癌症类型,46并且在所有情况下都推荐进行测试,47,48但测试率仍然很低,主要原因是成本16和时间。17然而,尽管从H&E染色的切片中预测前列腺和胰腺癌的HRD是可行的,但可能需要像卵巢癌中进行的迁移学习那样,对训练过程进行特定的癌症类型调整。
DeepHRD从数字H&E切片中检测HRD的能力提供了一个重要的精准肿瘤学工具,可以在资源有限和服务不足的地区使用,这些地区通常不存在基因组测试。
此外,即使在资源丰富的临床环境中,DeepHRD对HRD的快速检测也为一线肿瘤学决策提供了明确的价值,包括治疗剂量、替代治疗和临床试验的入组。具体来说,与其他基因组靶点一致,49先前的研究发现,HRP癌症对一线铂治疗和PARP抑制剂的结果较差,50,51而结果也支持仅在HRD肿瘤中进行一线高剂量铂5和铂-PARP抑制剂联合治疗15的选择。
此外,最近的证据显示,一种新的基于细胞的免疫疗法52和其他新颖方法53对一线新诊断的HRP卵巢癌具有持久的益处,从而为肿瘤学家提供了选择性的HRP特定替代治疗方案。
最后,由于快速生物标志物检测对于识别有前景的靶向临床试验至关重要,54,55 DeepHRD可能促进临床试验的入组和新兴非铂和免疫疗法的分层,这些疗法在HRP肿瘤中更有效51且具有选择性50。
总结来说,DeepHRD在三个临床队列中表现出一致的风险比,范围在0.45到0.49之间,与四种标准分子测试相比,它将1.8至3.1倍的患者分类为HRD,这些患者在高级别浆液性卵巢癌中显示出更好的OS,在转移性乳腺癌中显示出特定的铂PFS。
这一表现表明,传统的病理报告可以轻松扩展到包括来自常规H&E切片的DeepHRD注释,从而为乳腺癌和卵巢癌提供了一种成本效益高且及时的方法,补充现有的分子HRD检测。
然而,将DeepHRD作为治疗决策的预测生物标志物,特别是对于铂治疗,需要在专门设计来测试这一假设的试验中进行进一步研究。尽管如此,使用相同的诊断切片并建立明确且可操作的AI阈值,将最小化由于分子测试结果不确定、边缘病例、存在不确定意义的变异或用于未来测试的耗尽组织所带来的挑战。