IntegrAO整合不完整数据以实现患者分层

高通量组学分析技术的进步极大地推动了癌症患者的分层研究。然而，多组学整合中的数据不完整问题带来了巨大挑战，因为像样本排除或插补这样的传统方法常常会损害真实生物多样性。此外，将具有部分组学数据的新患者准确分类到现有亚型这一关键任务也常被忽视。为了解决这些问题，作者提出了 “整合任意组学”（Integrate Any Omics，简称IntegrAO），这是一个用于整合不完整多组学数据和对新样本进行分类的无监督框架。IntegrAO首先将来自不同组学来源的部分重叠的患者graph进行合并，然后利用图神经网络生成统一的患者嵌入表示。作者对涉及六种组学模式的五个癌症队列进行的系统评估表明，IntegrAO对缺失数据具有很强的鲁棒性，并且在对具有部分特征的新样本进行分类时准确性较高。AML案例进一步证实了它在不完整数据集中揭示生物学和临床异质性的能力。

来自：Moving towards genome-wide data integration for patient stratification with Integrate Any Omics, Nature Machine Intelligence, 2025

背景概述

精准医学根据患者独特的基因图谱量身定制个性化治疗方案，已被公认为癌症治疗的未来发展方向。该领域正朝着收集多模态数据的方向发展，以应对癌症固有的异质性问题。癌症的异质性表现为多样的基因、转录组和表型变异。近年来，高通量技术的进步使得多维分析成为可能。像癌症基因组图谱（TCGA）这样的项目，已经在不同分子层面产生并收集了数千份肿瘤样本。随着单细胞分析技术的兴起，尤其是scRNA-seq，通过突出不同细胞类型的独特表达谱，加深了人们对肿瘤微环境的理解。因此，基于基因、转录组和表型数据的患者分层，已成为精准医学的核心内容，为定制化治疗的开发提供了指导。

整合多组学数据能够更全面地理解癌症。在过去十年中，出现了许多方法，包括基于网络的方法、基于矩阵分解的方法、贝叶斯聚类技术以及先进的深度学习方法，这些方法在疾病亚型分类方面取得了成功。然而，这些方法通常需要完整的多组学数据，由于实验和资金限制，完整数据很少能获取到。例如，所有患者的基因分型数据可能是完整的，但基因表达或甲基化数据却常常不完整。分析这种不完整的组学数据具有挑战性。排除含有缺失组学数据的样本会减小样本量，而填补缺失值可能会引入偏差和不确定性。这突出了对能够直接处理不完整数据集而不丢弃有价值信息的计算方法的迫切需求。解决缺失数据问题的先进整合方法可分为两类：联合插补joint imputation或优化掩蔽optimization masking。尽管联合插补方法在建模框架内预测缺失值，但它们往往会引入潜在偏差，并且需要大量样本。优化掩蔽技术处理如患者graph这样的已处理数据，在优化过程中通过掩蔽缺失数据使部分样本得以参与分析，但面临着计算复杂度增加、随着图数量增多可能出现聚类不准确以及需要至少一个共同数据视图等挑战。

尽管存在这些局限性，多组学整合仍能提供有价值的诊断和预后信息。然而，将新患者准确分类到预定义的亚型中仍然是一个重大挑战，尤其是在处理这些患者的不完整组学数据时。许多患者只有部分数据集。开发能够从任何可用数据中推断出准确亚型的方法，对于推进个性化医疗以及充分实现多组学整合在医学中的潜力至关重要。

IntegrAO是一个用于整合不完整多组学数据并对新样本进行分类的无监督框架。IntegrAO首先使用部分图融合机制，整合来自不同组学来源的重叠患者图，在保留数据保真度的同时尽量减少噪声。然后，应用GNN提取患者嵌入并将其对齐到统一空间，即使数据不完整，也能够准确地对新患者进行分类。为了展示IntegrAO的应用，首先通过模拟组学数据集表明，IntegrAO在各种数据缺失的情况下都能实现稳健的整合。AML的案例研究进一步说明了IntegrAO从不完整的多组学数据中全面了解异质性的能力。对涵盖六种组学模式的五个癌症队列进行的系统评估强调了IntegrAO对缺失数据的鲁棒性，以及它在整合部分数据和对新样本进行分类方面的有效性。

IntegrAO

IntegrAO是一个用于整合存在部分重叠的多组学数据集的无监督框架。如图1所示，IntegrAO有两个关键功能：传导整合-transductive integration和归纳预测-inductive prediction。

转导整合包含两个核心步骤：（1）融合部分重叠的患者图；（2）跨组学模态提取和对齐患者嵌入（图1a）。在步骤（1）中，IntegrAO通过为每种组学数据模态构建患者图来处理存在数据缺失类型的样本，其中节点代表患者，加权边表示成对相似性。然后，IntegrAO迭代地融合这些图，利用共享样本作为桥梁在组学间传播信息。组学之间的重叠程度决定了信息融合的程度，共享患者越多，融合效果越好。由于不同组学模态之间的患者重叠情况不同，IntegrAO对图进行两两融合以最大化信息流。步骤（1）为每种组学数据模态生成一个融合图，该融合图整合了其他组学的信息。步骤（2）从每种组学数据模态中提取低维患者嵌入，并将其映射到一个统一的空间。融合后的网络和组学数据通过特定组学的图神经网络（GNN）编码器和一个共享投影头来生成嵌入。在训练过程中，模型确保嵌入保留输入图的相似性结构，并对齐不同组学中的患者嵌入。最终通过对不同组学的嵌入取平均值来获得最终嵌入，以构建综合图。

归纳预测将无监督框架扩展到有监督任务中（图1b）。例如，从综合图中识别出癌症亚型后，IntegrAO可以进一步微调，利用任何可用的组学数据预测新患者的亚型。预测模型在无监督的IntegrAO框架基础上增加一个多层感知器（MLP）头，该MLP头处理平均后的患者嵌入以进行准确预测。预训练模型提供初始权重，而MLP头用随机权重初始化，以确保强大的特征提取能力并适应有监督任务。微调平衡了嵌入学习和亚型分类的目标。这种双重优化使模型能够以一种与模态无关的方式支持亚型预测。在推理过程中，新患者的组学数据被融合到现有图中，微调后的模型根据融合图以及相应的组学特征预测他们的癌症亚型。
fig1

图1a，步骤（1）以细胞组成、mRNA表达、microRNA表达、DNA甲基化和拷贝数变异数据集为例，用于构建每种组学的患者图。患者数据无需涵盖所有组学类型。随后，融合阶段利用从其他图中收集的信息对每个图进行迭代优化，最终为每种组学生成统一的图。步骤（2）将这些统一的图及其相应的组学特征输入到特定组学的图神经网络（GNN）中，以学习患者嵌入。这些低维患者嵌入经过优化，以保留各个统一图中的相似性信息，并尽量减少同一患者在不同组学中的嵌入差异。步骤（3）通过对特定组学的嵌入求平均得到最终嵌入，并将其应用于构建最终的综合患者图。
图1b：将IntegrAO转换为预测框架。利用综合图，可以识别患者亚型，并以此对训练好的IntegrAO模型进行微调。经过微调的IntegrAO模型能够对具有任何可用组学数据的新患者进行分类。在推理过程中，首先将新患者与现有患者的图进行融合。然后，将融合后的图及相关组学特征输入到微调后的IntegrAO模型中，从而预测患者亚型。

组学数据预处理

模拟癌症组学数据集
利用InterSim CRAN软件包来模拟癌症组学数据集，共生成了500个样本，这些样本分布在15个大小各异的簇中，反映了现实的临床场景。对于超参数，我们设置“effect = 0.1”和“p.DMP = 0.1”，其余超参数保持默认值。

TCGA癌症数据集
对于癌症数据集，利用了来自癌症基因组图谱（TCGA）中五种肿瘤类型的多组学数据，包括乳腺癌（BRCA）、结肠癌（COAD）、皮肤黑色素瘤（SKCM）、肾透明细胞癌（KIRC）和肺腺癌（LUAD）。具体而言，作者直接从cBioPortal获取mRNA表达、DNA甲基化、拷贝数变异和蛋白质表达数据。MicroRNA表达数据则单独从Broad研究所的Firehose源数据中检索。作者还为每位患者获取了相关的临床信息。在分析之前，进行了严格的预处理，包括去除异常值、通过k近邻算法（kNN）插补缺失值，以及通过标准化缩放将数据归一化到均值为0、标准差为1。任何数据类型缺失数据超过20%的患者，以及在患者中缺失值超过20%的特征均被排除。此外，作者从每种数据模态中选取标准差最大的前2000个特征。对于总特征数少于2000的模态，则不进行特征筛选。

AML癌症数据集
为构建AML数据集，作者合并了来自TCGA、BEAT-AML和Leucegene队列的原始数据。对每个数据集的基因表达数据使用方差稳定变换进行归一化处理。然后使用“一次一个细胞”（one-cell-at-a-time）算法校正批次效应，该算法还将特征降维到30维空间。对于细胞组成，作者按照另一项研究的方法，利用bulk基因表达反卷积技术，并应用“一次一个细胞”算法进行后续的特征降维。仅存在于TCGA队列中的DNA甲基化数据无需进行批次校正，根据离散度选择了2000个高变特征。最终的数据集包含812例具有细胞组成和mRNA表达数据的AML患者，以及其中308例还拥有额外DNA甲基化数据的患者子集。

聚类数选择

为确定癌症数据集的最佳聚类数，作者采用了一种特定方法。首先，在整合患者数据后，进行10 fold训练-测试分割。在每一fold中，对90%的患者嵌入应用高斯混合模型，并对剩余10%的数据计算对数似然分数。针对预定义范围内的不同聚类数重复该过程。然后，计算每个聚类数对应的对数似然分数的均值和标准差。最佳聚类数由对数似然分数决定，用于对每个聚类数对数据集的适用性进行排序。

在新患者分类实验中，对综合网络应用具有该最佳聚类数的谱聚类算法以获得聚类标签。在急性髓系白血病（AML）案例研究中，最初识别出的18个聚类经过合并生物学上相似的聚类进行优化，最终得到12个不同的AML亚型。

聚类主要应用在IntegrAO框架中的以下两个关键环节：
转导整合后确定癌症亚型数量
在转导整合完成后，为确定癌症数据集合适的聚类数量，采用了特定方法。具体是先对整合后的患者数据进行十折训练 - 测试分割，在每一折中，对90%的患者嵌入应用高斯混合模型，并在剩余10%的数据上计算对数似然分数，以此确定最佳聚类数。这一步骤是为后续准确划分癌症亚型提供基础，让模型能够基于合适的聚类数量来深入分析患者数据特征，挖掘数据中的潜在结构和模式，从而更精准地对癌症患者进行分层。

新患者分类及案例研究中确定亚型标签

新患者分类：在新患者分类实验中，当确定了最佳聚类数后，会对整合后的网络应用具有该最佳聚类数的谱聚类算法，从而获得聚类标签。通过这些标签可以将新患者划分到相应的癌症亚型中，实现对新患者的准确分类。
案例研究：以急性髓系白血病（AML）案例研究为例，最初识别出18个聚类，随后通过合并生物学上相似的聚类进行优化，最终确定为12个不同的AML亚型。这种聚类和亚型优化过程有助于深入理解疾病的异质性，为后续制定个性化的治疗方案提供有力依据。

基因表达反卷积

为生成用于癌症基准实验的细胞组成数据，作者利用BayesPrism对来自TCGA癌症队列的原始基因表达计数进行反卷积分析。通过BayesPrism网络门户进行分析，遵循其默认的预处理步骤。这些步骤包括过滤异常基因、选择蛋白质编码基因以及分离每种细胞类型的特征基因。提交反卷积任务时，使用该门户的默认设置。得到的矩阵详细记录了患者特异性细胞类型的比例，作为整合基准测试的细胞组成模态数据。

案例：识别AML亚型

为了阐明AML的异质性----这是一种以广泛的患者间和患者内异质性为特征的癌症，作者将IntegrAO应用于一个实际的AML数据集。最近，在AML中发现了与每位患者白血病细胞层级组成相关的新维度异质性，这为疾病生物学和药物反应提供了新的见解。作者试图利用IntegrAO将这一新信息与其他两种组学数据，即mRNA表达和DNA甲基化数据相结合，以获得对AML异质性前所未有的多维度认识。因此，作者将IntegrAO应用于三个AML队列，即癌症基因组图谱（TCGA）、急性髓系白血病治疗反应和生物标志物研究（BEAT-AML）以及Leucegene队列，利用了812名患者的mRNA表达和细胞层级组成数据，以及其中308名患者的甲基化谱数据。

IntegrAO确定了12种生物学上不同的AML亚型（见方法部分的 “聚类数选择”），优化了之前仅依据细胞层级所定义的分组。这些亚型在细胞组成、转录谱、甲基化和基因组改变方面呈现出明显的模式（图3a、b）。例如，“Primitive-原始型” 亚型富含原始白血病干细胞和祖细胞，“Mature-成熟型” 亚型富含单核样细胞和传统树突状细胞（cDC样细胞），而其他亚型则有不同的细胞类型富集。
fig3ab

图3a：IntegrAO识别出12种具有不同层级组成、转录组特征和突变模式的亚型，保留了细致的差异。
图3b：IntegrAO识别出的这12种亚型呈现出独特的DNA甲基化特征，凸显了该方法基于表观遗传变异进行区分的能力。
图3c：Kaplan - Meier生存曲线显示各亚型之间存在显著的生存差异，证实了这些亚型具有不同的预后意义。维奈克拉（venetoclax）的药物反应情况凸显了各聚类间存在明显不同的反应模式。

作者进一步通过生存分析和药物敏感性分析评估了这些亚型的临床重要性。对癌症基因组图谱（TCGA）和急性髓系白血病治疗反应和生物标志物研究（BEAT- AML）联合队列绘制的 Kaplan-Meier 生存曲线显示出显著差异（图3c）。关于药物敏感性，作者使用方差分析来评估IntegrAO确定的亚型对BEAT-AML药物筛选数据集中122种抗癌药物的反应是否存在差异（图3c以药物venetoclax为例）。

作者推测，IntegrAO确定的各亚型间的生物学异质性可能反映了它们在正常造血分化过程中的不同起源。为验证这一点，利用另一项研究定义的scRNA-seq参考数据，评估了各亚型在造血分化各阶段的富集情况（图3d）。将IntegrAO确定的每个亚型的前100个基因标志物映射到该参考数据后，发现了一些对应关系，例如 “树突状细胞型” 亚型与浆细胞样和传统树突状细胞对应，“原始型（典型）” 亚型与造血干细胞对应，“成熟单核细胞型（NPM1）” 亚型与单核细胞对应。这一验证进一步证实，IntegrAO确定的亚型保留了不同的造血谱系，反映了急性髓系白血病的肿瘤间异质性。

fig3d