论文阅读(十五)：DNA甲基化水平分析的潜变量模型

1.论文链接：Latent Variable Models for Analyzing DNA Methylation

摘要：

脱氧核糖核酸（DNA）甲基化与细胞分化密切相关。例如，已经观察到肿瘤细胞中的DNA甲基化编码关于肿瘤的表型信息。因此，通过研究DNA甲基化数据的多元结构，可以有效地增强对肿瘤生物学的理解。在某种程度上，这些数据具有离散的潜在结构，它可以被视为编码不同的肿瘤亚型（在癌症研究中）或组织类型（更一般地）。然而，在某些情况下，可能有更多的证据表明连续的潜在结构反映了连续的变化范围。本章讨论了在过去十年中用于分析DNA甲基化数据的几种特定潜变量模型，包括在低维环境中建模DNA甲基化数据的方法，例如在候选基因研究中，以及在高维环境中建模DNA甲基化的递归分区混合模型方法。

关键词：DNA甲基化，隐变量模型，递归分区混合模型

DNA甲基化与细胞分化密切相关。例如，已经观察到肿瘤细胞中的DNA甲基化编码关于肿瘤的表型信息。因此，通过研究DNA甲基化数据的多元结构，可以有效地增强对肿瘤生物学的理解。在某种程度上，这些数据具有离散的潜在结构，它可以被视为编码不同的肿瘤亚型（在癌症研究中）或组织类型（更一般地）。然而，在某些情况下，可能有更多的证据表明连续的潜在结构反映了连续的变化范围。本章讨论了在过去十年中用于分析DNA甲基化数据的几个特定的潜变量模型。首先讨论了在低维环境中（如候选基因研究中）建模DNA甲基化数据的方法。离散和连续潜变量是有区别的，前者由尼特混合模型或其非参数类似物（通常被描述为聚类）组成，后者由通常涉及数值积分的潜在特质模型组成。然后在高维环境中建模DNA甲基化的方法，例如从表达中获得的数据，微阵列，进行了讨论。在这种情况下，连续潜变量变得难以操作和解释，因此重点只放在计算效率高的聚类方法上。递归分区混合模型（RPMM）以类似于分层聚类的分层格式呈现类，从而允许以常规算法不支持的方式进行树修剪。然而，RPMM不能处理从现今标准甲基化阵列获得的数据。因此，RPMM配备了一个预处理步骤，以产生半监督RPMM（SS-RPMM），这是一个可扩展的过程。

15.1介绍

表观遗传学是研究基因功能的可遗传变化，而这些变化不能用DNA序列的变化来解释。任何多系统生命形式的发育都是以系统性细胞分化为基础的，由细胞的谱系定型决定，其起源可以追溯到多能祖细胞。现在已经确定，这种谱系承诺的标志是有丝分裂可遗传的表观遗传变化，反映了复杂的转录程序。一个这样的表观遗传标记是在DNA碱基对C和鸟嘌呤（G）（CpG二核苷酸）的胞嘧啶（C）上添加甲基;这种甲基化标记与染色质和核小体DNA sca？old的改变紧密相关，而染色质和核小体DNA sca？old又负责个体细胞内基因表达的协调[20，23，32]。因此，DNA甲基化与细胞分化密切相关，其CpG二核苷酸序列上的甲基化蛋白实质上编码了有关其细胞功能的信息.例如，图15.1，来自[8]，描述了一个聚类热图，显示了11种不同组织类型基于其500个CpG二核苷酸处的DNA甲基化蛋白聚类的程度。图15.1表明，从多变量的角度来看，DNA甲基化的测量保留了许多关于细胞类型的信息。

这一事实已在癌症生物学中被利用来区分肿瘤，这些肿瘤在其分子特征的基础上在组织病理学上看起来相似。特别是，CpG岛甲基化表型（CIMP）已成为了解癌症的流行构建体[16，35，42，43]。从本质上讲，已经观察到肿瘤细胞中的DNA甲基化，在少数基因的启动子区域中测量，编码关于肿瘤的表型信息。因此，通过研究DNA甲基化测量的向量Y的多变量结构，有效地增强了对肿瘤生物学的理解。在某种程度上，Y具有离散的潜在结构，它可以被视为编码不同的肿瘤亚型（在癌症研究中）或组织类型（更一般）。然而，在某些情况下，可能有更多的证据表明连续的潜在结构反映了连续的变化范围[29，30]。

对于给定的CpG，可以预期细胞的克隆群体具有分类甲基化状态，0、1/2或1，这取决于CpG分别在两条染色体、一条染色体或两条染色体上是否甲基化。由于半甲基化（仅在一条染色体上的DNA甲基化）相对罕见，因此克隆细胞群体上的DNA甲基化分析可以被视为观察到的二分变量向量上的潜在变量问题。虽然肿瘤群体通常是克隆的，但在实践中，在没有劳动密集型显微切割技术的情况下，通常很难将肿瘤细胞与周围的正常细胞或间质组织分离。此外，人们对测定全血中的DNA甲基化感兴趣[31，39，6]，其DNA甲基化状态由不同循环血细胞的混合物决定[34，44]。因此，DNA甲基化测量在实践中可能是单位区间内的连续变量，双峰（在相对克隆的细胞群体的情况下）或单峰（在极其异质的混合物如血液的情况下）。

假设Y的各分量的分布取决于技术。有各种各样的测定和微阵列平台可用于测量DNA甲基化; Peter Laird最近的综述中提供了一个全面的列表[25]。流行的例子包括甲基化特异性聚合酶链反应（PCR）[15]，COBRA [45]，PCR后焦磷酸测序[41]，MethyLight [12]，Sequenom [21]，Illumina甲基化阵列[3-5]和MeDIP [36]。这些方法中的第一个是劳动密集型方法的例子，适用于候选基因研究或微阵列结果的验证，而后两个方法允许高通量分析。甲基化特异性PCR（MSP）为每个询问的位点（基因）产生二分值，未甲基化（编码为0）和甲基化（编码为1）。COBRA、焦磷酸测序、MethyLight、Sequenom和Illumina甲基化阵列为每个询问的基因座产生0和1之间的区间缩放值。一些平台，如MethyLight，原则上可以产生任意大的值，超过1，尽管这种难以解释的事件通常很少发生。另一方面，MeDIP产生以规则间隔测量的荧光强度值，具有非常密集的基因组覆盖范围，并且通常减少到与p值相关的峰值强度;峰值的解释意味着是二分法的。

图15.2说明了本章所考虑的模型类型。假设来自潜在大量J个个体基因座的DNA甲基化测量值Yij具有由它们对共同的未观察到的变量Zi的依赖性引起的相关性。变量Zi可以是分类变量或单变量连续变量，代表分子亚型或总体甲基化倾向，本身可能受协变量xi的影响。从统计建模的角度来看，这是一个看似简单的公式，但潜在的大量基因座，J，可以复杂的估计和解释。

在本章的其余部分，我们讨论了几个特定的潜变量模型，这些模型在过去十年中被用来分析DNA甲基化数据。在第17.2节中，我们讨论了在低维环境（小J）中建模DNA甲基化数据的方法，例如，候选基因研究在这里，我们区分离散和连续的潜变量，前者由尼特混合模型或其非参数类似物（通常被描述为聚类）组成，后者由通常涉及数值积分的潜在特质模型组成。在第17.3节中，我们讨论了在高维环境（大J）中建模DNA甲基化的方法，例如，数据来自表达微阵列。在这种情况下，连续潜变量变得难以操作和解释，因此我们只关注计算效率高的聚类方法。

在下面的数学阐述中，矩阵总是用粗体大写字母表示。大写字母也用于指定一个随机变量，而小写字母则用于指定数量。粗体字母也表示矢量（随机或固定），而普通类型表示标量。除非另有说明，否则所有向量都假定为列向量，其中行向量被写为转置列向量。

15.2低维环境下DNA甲基化的潜变量方法

当位点数J的值相对较小时，可以构建丰富的图形模型。在本节中，我们描述了几种用于小候选基因研究的方法，这些方法大多出现在世纪的前十年中期。

15.2.1离散潜变量

当Zi是离散变量时，相应的潜变量分析导致聚类问题。尽管许多流行的非参数聚类技术，如K均值或分层聚类，已用于DNA甲基化数据的分析[35]，但有证据表明基于可能性的方法可能提供上级结果[37]。因此，我们在本章中主要关注这种基于似然性的方法，这些方法通常被称为基于模型的聚类[13，14]。这些方法最终依赖于我们现在描述的“尼特混合物模型”。

15.2.2连续潜变量

15.3高维环境下DNA甲基化的潜变量方法

现代DNA甲基化研究利用高密度微阵列甚至基于测序的技术，导致高维数据集的J值极大。表15.2展示了常见可用阵列的维度与第17.2节中描述的应用中遇到的维度的比较。在这种情况下，一维连续的Z是不切实际的，而维度足以建模Y的多变量Z会导致使用严格的基于似然的方法时计算不可行。即使是有限混合模型（15.1）在使用标准软件如Mplus[13]进行拟合时也很耗时。因此，分析高维基因组数据的可行算法需要简化假设。在本节中，我们描述了一些用于分析DNA甲基化阵列的方法。

15.3.1基于模型的聚类：递归分区混合模型

RPMM已在许多环境中使用。在其首次亮相[18]时，它被用于对图15.1中所示的211个组织的DNA甲基化过程进行聚类，从而产生与组织类型高度对应的潜在类别。在一项检查胸膜间皮瘤和正常胸膜的DNA甲基化的研究中，RPMM分类与肿瘤和正常分类高度一致，与肺石棉负荷相关，并预测患者生存[7]。在另一项检查HNSCC肿瘤的研究中[28]，RPMM类别区分了正常和肿瘤样本，如图15.4所示，并与其他病因因素良好相关，如图15.5所示（第400页）。对应于这些HNSCC肿瘤子集的RPMM类别分配也与拷贝数改变的类别相关[33]，如图15.6所示（第400页）。在一项乳腺癌研究中，RPMM甲基化类别与肿瘤大小、酒精和膳食叶酸摄入量相关[9]，在一项神经胶质瘤研究中，发现RPMM类别与生存率和IDH1基因突变相关[10]。在结肠癌中发现了RPMM甲基化类别和突变之间的类似关联[16]。

15.3.2半监督递归分区混合模型

RPMM算法被设计为解决分析GoldenGate甲基化阵列（Illumina）的要求，其询问J = 1505个CpG位点。然而，来自Illumina的标准甲基化阵列现在询问从27 578到485 577个CpG位点的任何地方，远远超过甚至RPMM的计算能力。此外，对于任何给定的临床或流行病学问题，甚至可能很难制定一个简单的潜在变量模型，可以有意义地与感兴趣的结果相关。

受Bair和Tibshirani [1]提出的“半监督”方法的启发，RPMM配备了预处理步骤以产生半监督RPMM（SS-RPMM）[24]。在该方法中，根据DNA甲基化测定值关于临床结果提供信息的程度对每个CpG进行排序。选择M个信息量最大的CpG以包括在RPMM算法中，其中M的值经由十倍交叉验证来选择以优化预测性能。在独立数据集中验证结果（可能通过在对CpG进行排名之前将较大样本分成训练集和测试集来获得）：通过独立数据集中受试者的经验贝叶斯预测RPMM类别分配，并评估预测的类别成员资格和结果之间的关联。独立或分裂样本验证用于规避可能由于使用将用于进行最终预测推断的数据预选位点而导致的过度设置的可能性。

SS-RPMM已用于膀胱癌病例对照研究，以预测使用In 27 K微阵列（Illumina）从全血中测定的DNA甲基化的病例状态[31]。此外，它已被用于来自相同阵列技术的数据，以检查人类胎盘中DNA甲基化与婴儿生长受限之间的关联[2]。

15.4结论

我们概述了用于DNA甲基化数据分析的潜在变量模型。所使用的两种主要模型类型是尼特混合模型（15.1），一种本质上离散的潜变量建模方法，以及潜在特质模型（15.5）的变体。随着时间的推移，前一种方法比后一种方法更有用，因为它的结果已被证明更容易解释，并且与CpG岛甲基化表型（CIMP）的想法一致，该想法包含DNA甲基化过程中固有的“分子亚型”，或者在分析mRNA表达数据的背景下类似的想法[1]。此外，Nite混合模型更容易扩展到高维环境，其中通过连续潜在特征对相关性进行充分表征将需要中等或高维的多变量潜在连续维度，从而使数值求积复杂化，并导致MCMC方法即使在中等维度下也被证明是繁琐的[19]。然而，最近的工作已经将奇异值分解[26]或独立成分分析[40]应用于mRNA表达和DNA甲基化数据，目的是表征技术噪声并对其进行解释。这些论文中考虑的高维需要类似于[24]中提出的基因座选择技术，因此代表了类似于上面第17.3节中讨论的折衷方案。

在低维设置中，模型（15 - 1）可以以类似于模型（15 - 5）的方式调节协变量xTγ。然而，在高维中，要求γ对所有类保持恒定会破坏通过递归划分数据集所获得的计算增益。因此，首选方法是在第二阶段分析中估计类别成员关系的协变量依赖性;简单的双变量方法出现在[7，28]中，而用于模拟更复杂的多变量关联的多项逻辑回归方法出现在[9]中。目前的研究涉及使用更复杂的多变量分布g来解释与相同基因相关的CpG基因座之间的相关性，或者通过两个不同的阵列测量的相同CpG基因座之间的相关性（例如，在不同的组织或在同一组织在不同的时间点）;也正在调查的是更多的生物驱动的选择CpG基因座的方法，类似于SS-RPMM。