论文阅读(八)：结构方程模型用于研究数量遗传学中的因果表型网络

1.论文链接：Structural Equation Models for Studying Causal Phenotype Networks in Quantitative Genetics

摘要：

表型性状可能在它们之间发挥因果作用。例如，农业物种的高产可能会增加某些疾病的易感性，相反，疾病的发生率可能会对产量产生负面影响。同样，转录组可能是植物和动物的生殖状态或发育阶段的函数，这也可能取决于其他生理变量。描述这种相互关系的表型网络的知识可用于预测复杂系统的行为，例如，疾病、生长和繁殖等复杂性状的生物学途径。本章综述了结构方程模型及相关技术在数量遗传学中表型性状间因果关系研究中的应用。它讨论了遗传因素如何混淆因果关系的搜索，以及如何系谱和基因组信息可以用来控制这种混淆效应，并帮助因果推理。

关键词：结构方程模型，数量遗传学，因果表型

表型性状可能在它们之间发挥因果作用。例如，农业物种的高产可能会增加某些疾病的易感性，相反，疾病的发生率可能会对产量产生负面影响。同样，转录组可能是植物和动物的生殖状态或发育阶段的函数，这也可能取决于其他生理变量。描述这种相互关系的表型网络的知识可用于预测复杂系统的行为，例如，疾病、生长和繁殖等复杂性状的生物学途径。本章回顾了结构方程模型（SEM）和相关技术在数量遗传学中研究表型性状间因果关系的应用。它还讨论了遗传因素如何混淆因果关系的搜索，以及如何使用系谱和基因组信息来控制这种混淆效应并帮助因果推理。

8.1介绍

表型性状可能在它们之间发挥因果作用。例如，农业物种的高产可能会增加某些疾病的易感性，相反，疾病的发生率可能会对产量产生负面影响。同样，转录组可能是植物和动物的生殖状态或发育阶段的函数，这也可能取决于其他生理变量。描述这种相互关系的表型网络的知识允许预测复杂系统的行为，与疾病、生长和繁殖相关的复杂性状的生物学途径。

结构方程模型（SEM）可用于研究多变量系统（如遗传基因组学、系统生物学和数量遗传学中的多性状模型）中表型之间的递归和同步关系。因此，SEM可以对性状之间的关系做出与传统多性状模型不同的解释，其中所有关系都由随机变量之间的对称线性关联（例如协方差和相关性）表示。

本章综述了扫描电镜和相关技术在多表型研究中的应用。此外，它还讨论了如何利用DNA多态性和谱系信息来辅助因果推理，通过利用孟德尔随机化的概念，并通过解释混淆的遗传效应。本章的组织结构如下。在第8.2节中，回顾了数量遗传学中常用的用于研究多性状的经典线性混合效应模型。接下来，在第8.3节中，混合模型被扩展以适应使用结构方程模型的表型性状之间的函数关系。在第8.4节中，提出了一种通用的数据驱动方法来搜索表型因果关系，在第8.5节中，讨论了如何利用基因组信息来帮助因果推断，以及如何使用系谱或分子标记数据来减轻与多效多基因效应相关的混淆效应。最后，提供了一个带有结论性意见的最后部分。

8.2数量遗传学中的经典线性混合效应模型

混合模型为数据分析提供了一种灵活的工具，其中响应围绕具有随机偏离的一些平均值进行聚类，使得同一聚类中的观测之间存在自然的依赖性，例如，家庭成员的遗传学研究。在数量遗传学中，特别是在动物和植物育种应用中，混合模型通常用于估计环境效应，遗传参数和与相关个体测量的表型性状相关的方差分量。它们在这一领域的受欢迎程度来自于它们处理复杂谱系、不平等家庭规模、世代重叠、性别限制性状、选择性交配和自然或阿尔蒂社会选择的灵活性[29，15]。在本节中，我们将简要回顾混合模型，并讨论它们在动物（和植物）育种中的一些应用。

8.3混合效应结构方程模型

8.4表型因果关系的数据驱动搜索

8.4.1总体概述

正如[12]，[52]和[46]所指出的，混合效应SEM在数量遗传学中的应用并不像经典的MTAM那样简单。使用前一种模型意味着至少要应对两个额外的挑战：（1）模型参数的可识别性，以及（2）因果结构的选择。

如前所述，MTAMs被认为是饱和模型，这意味着它们有足够的色散参数来完美地消除任何联合分布。混合效应SEM的一个特征是它潜在地呈现了也与MTAM有关的每一个离散参数，但是为了表示表型之间的因果关联的大小，增加了更多的参数，这是协变的额外来源。这一特性导致模型过度识别，因此根据SEM的参数加载情况，它们的估计量可能无法从似然函数中识别。出于这个原因，模型限制对于SEM是必要的。这可以通过不同的方式来实现，从贝叶斯分析中使用适当的先验分布的参数收缩到模型中涉及的变量之间的一些条件独立性的假设[12，48]。

如果有任何利益的因果解释的SEM被tetted，那么所应用的限制必须反映先验的因果知识/假设。如前所述，最常见的参数限制是将SEM的残差协方差矩阵视为对角线，这对于设置非循环SEM是一个足够的限制。图8.3说明了图8.2所示结构的这种限制。幸运的是，这种限制反映了一些方法所采用的因果假设，这些方法解决了在数量遗传学中实施SEM的第二个挑战：寻找因果结构。接下来提供对问题和执行该搜索的方法的理论基础的概括描述。

如前所述，SEM是在因果结构上有条件地呈现的，因此建立一个表达变量之间因果关系的模型需要选择这样的结构中的先验结构。这种选择可能是复杂的，因为结构的空间通常太大，即使在研究几个性状时也不允许进行详尽的比较。此外，随着研究的性状数量的增加，其数量也会爆炸性地增长[42]。在随后的混合效应SEM的应用中[12]，这种选择通常是基于先验知识/信念做出的，这可能被认为是对可能结构集的次优探索。尽管如此，已经开发了一些算法，以允许基于多变量样本和一组因果关系假设的因果关系理论[31，44]进行这种探索。在这里，我们专注于寻找非循环因果结构。接下来定义了一些术语来支持所涉及的概念的表达。

在Pearl [31]之后，具有非循环因果结构和独立残差的SEM等因果模型被称为马尔可夫模型。因果马尔可夫条件指出，马尔可夫因果模型诱导满足马尔可夫相容性的分布，这保证了因果结构和联合分布之间的连接，允许对结构进行数据驱动的搜索。这样的条件意味着假设不存在因果地影响分析变量集合中的两个或更多个变量的变量，这些变量不在集合中，即，因果关系假设[44]。这些概念是必要的，以保证因果结构中的每一个d-分离都被认为是抽样分布中稳定的条件独立性。因果关系假设通常被认为是一个强有力的假设，但这同样适用于具有独立残差的SEM，这是SEM应用的流行模型限制。此外，在大多数这些应用中，假设已知的因果结构，如果使用搜索算法，则情况并非如此。

搜索算法的其他典型假设是忠实性（由于参数值的不可能组合而不存在不稳定的条件独立性），整个人群的同质因果结构和正确的统计决策[44]。

8.4.2搜索算法

8.5遗传学应用中的因果结构推断

8.5.1作为工具变量的基因型信息

IC算法和上面讨论的相关方法适用于许多不同的背景下，以进一步我们对变量之间的函数关系和因果关系的理解。特别是在遗传学的背景下，这样的算法和方法也可以贝内于分子生物学知识，即信息（以及因果效应）从基因到表型的流动。此外，正如托马斯和孔蒂[45]所指出的，分离天然存在的等位基因变体的遗传随机化实验群体可以为推断变量之间的因果关系网络提供基础，如遗传位点（或基因），生理表型和疾病状态。特别是，在减数分裂期间发生的等位基因的随机化（通常称为孟德尔随机化）提供了类似于随机化实验设计的设置[36]。

在这种背景下，许多作者利用孟德尔随机化的概念来探索表型性状之间的因果关系。例如，[38]提出了一种方法来推断因果路径，涉及三个变量：特定基因的表达，特定基因座上的遗传多态性和复杂性状（例如，疾病特征）。考虑了三种可能的结构，它们被称为因果模型、反应模型和独立模型。提出了一种基于似然性的因果模型选择方法，该方法使用条件相关测量来确定数据最支持的三个变量之间的关系。然而，他们的程序仅限于简单的基因表型网络与三个节点，集中在识别基因的cathet-reactive间隔。

Schadt方法的扩展[38]由Li等人提出。[26]，他提出了一种SEM方法来分析多位点，多性状遗传数据，以及它们之间的不同潜在因果关系。他们的方法包括五个步骤，从一系列数量性状基因座（QTL）基因组扫描开始，对每个个体表型进行边缘扫描，然后是使用一个性状作为协变量进行的条件基因组扫描。无条件扫描和有条件扫描结果之间的比较可以首次洞察表型之间的因果关系。第三步是指构建初始路径模型及其相应的SEM表示。在路径模型构建之后，通过比较预测和观察到的协方差矩阵以及对单个路径系数进行显著性检验来评估它们的优度。最后，通过提出和评估替代模型来执行额外的步骤来重新构建模型，这些替代模型是通过在初始模型中添加或删除边缘或通过反转边缘的因果方向来生成的。

Chaibub Neto等人[1]也使用QTL信息定位连接表型的边缘，提出了一种包括两个主要步骤的方法。首先，使用无向依赖图[42]或从Spirtes等人的PC算法导出的骨架构建关联网络。[44]。其次，使用对数比值比（LOD）得分检验来确定连接一对表型，条件QTL的表型。作者使用模拟研究评估了他们的方法的性能，表明它可以恢复网络边缘并以高速率正确推断其因果方向。

Chaibub Neto等人[1]提出的方法依赖于有关影响感兴趣表型性状的QTL的可靠信息的可用性。然而，如Chaibub Neto等人[2]所讨论的，传统的QTL定位方法基于单性状分析，其中没有考虑表型之间的网络结构。这种单性状分析可以检测直接影响每个表型的QTL，以及具有间接效应的QTL（相对于所分析的性状集），其直接影响所分析的特定表型上游的表型。因此，传统的QTL作图方法忽略了表型网络，导致表型的遗传结构估计不佳，这可能会妨碍关于表型之间因果关系的正确推断。

鉴于传统QTL分析和表型网络重建方法的这一缺点，Chaibub等人[2]提出了一种同时推断因果表型网络及其相关遗传结构的方法。他们的方法是基于联合建模表型和QTL使用齐次条件高斯回归模型和模型等效性的图形标准。利用减数分裂过程中等位基因随机化的概念和基因型与表型的单向关系来推断具有表型因果效应的QTL。伴随着，表型之间的因果关系推断探索QTL节点，这可能使得有可能区分表型网络，否则将分布等效。

8.5.2多基因混杂效应的解释

在前一节中讨论的表型网络重建方法依赖于关于影响表型的QTL的信息，或者依赖于遗传标记信息的可用性，用于关于表型网络和遗传结构的联合推断。然后，QTL被用作推定网络上的亲本节点，促进对网络其余部分的推断，例如建立表型性状之间的因果关系。

然而，即使遗传标记信息不可用，SEM相关技术仍然可以用于数量遗传学研究表型性状之间的功能关系。如第8.3节所述，混合效应模型设置中的SEM适应通常应用于数量遗传学[12]，此后许多研究不同物种和表型性状的研究人员都应用了SEM。然而，在这样的应用中，因果结构被假定为先验已知的（例如，[7，20]），或者仅比较使用一些现有知识选择的几个推定结构（例如，[3、4、48、51]）。尽管如此，可以认为，即使没有关于QTL的信息，也可以使用数据驱动的算法来推断（至少部分地）表型性状之间的因果关系，该算法搜索因果结构，如第8.4节所示。

这方面的一个困难，正如Valente等人所指出的。[46]，在混合效应SEM中（如Gianola和Sorensen [12]所提出的），观察到的性状之间的关联不仅可以通过它们之间的因果联系来解释，而且可以通过遗传原因来解释，即使残差被假设为独立的。因此，考虑独立残差不足以保证因果结构与表型联合分布之间的联系。在这种情况下考虑的未观察到的相关遗传效应可能会混淆因果结构搜索，如果一个人试图执行它的基础上的联合分布的表型。

8.6总结

虽然SEM可以被解释为一个因果模型，因此它可以用来表达表型性状之间的因果关系，但SEM的因果结构可能无法正确反映模型性状之间的实际因果关系。此外，通过研究观测数据，推断因果结构是一项比仅仅通过建立多变量模型来描述数据的联合分布要困难得多的任务。在这种情况下，只有当人们愿意接受因果假设时，应用IC算法和相关技术才可以被认为是因果结构推断。如果假设被认为是太强，这样的算法仍然可以应用于探索空间的因果结构的SEM构造与对角残差协方差矩阵。尽管如此，后者的应用仍然可能产生有趣和有用的结果。一些因果学习并不需要所有上述假设。以Valente等人[47]获得的图8.4所示的结构为例。即使人们不愿意假设因果关系，也可以根据因果马尔可夫条件并通过确认有关35天体重的时间序列信息，第一个鸡蛋的年龄和鸡蛋产量的因果影响。此外，这些方法的应用程序是有用的因果关系的假设为随后的研究和调查的发电机。然后，可以使用其他研究中收集的额外数据来支持或驳回这些假设，或者可以通过受控干预进行实验测试。然而，在许多情况下，由于逻辑或伦理约束，随机实验是不可行的，因此观察数据是关于所研究系统的唯一可用信息。在这种情况下，SEM和因果搜索工具，如IC算法是方便的。

特别是在遗传学和基因组学研究中，因果推理受到孟德尔随机化概念的帮助[45]，其中等位基因变体在减数分裂期间随机分配给合子，并最终从父母传递到O spring，类似于随机实验设计。将SEM相关方法应用于多性状QTL分析和基因定位，不仅通过打破不同因果结构之间的统计等效性来改善对表型之间因果关系的推断，而且还提高了检测能力和估计精度，并具有区分QTL对每个性状的直接和间接遗传效应的额外优势[2]。此外，在遗传学研究中，可以使用例如基因敲除或敲低技术来最终测试推定的致病突变。除了DNA多态性信息和关于基因或QTL的知识可以用作表型网络重建中的亲本节点之外，转录组、代谢组和蛋白质组等多层大规模组学数据的联合分析当然可以提供额外的信息并增强推断因果表型关系的能力，尽管它也带来了另一个统计、计算、数据挖掘的挑战[22]此外，结构和功能数据，如基因序列、基因定位、转录结合位点、基因本体（GO）和代谢途径等，也可用于验证和测试推定的基因和表型网络[22]。这些数据也可以用作先验信息来帮助网络推理，与它已经用于其他组学应用（如微阵列数据）的方式相同[37]。

SEM还应用于系谱信息可用但QTL或任何基因组信息不可用的情况[12]。如前所述，这种建模方法允许对性状之间的关系进行不同的解释，相对于传统上用于动物育种的标准多性状模型。在经典模型中，所有的关系都被认为是性状之间的对称线性关联。在大多数混合效应SEM的应用中，先验信念被用作指定因果结构的基础，或者用于选择使用传统模型选择技术进行比较的几个结构。或者，可以在混合模型和定量遗传学的背景下对递归因果结构进行更广泛的数据驱动搜索[46]。为了控制遗传效应，这是在这种情况下寻找非循环因果结构所必需的，[46，47]应用了经典的单因素加性遗传模型，该模型涉及从谱系信息构建的关系矩阵A。通过使用高密度分子标记数据（例如，SNP基因型）。在这种情况下，可以采用遗传价值预测方法，例如贝叶斯回归技术[11]或核方法[5]。

总之，SEM应用程序提供了额外的见解，并可能提出更丰富的表达的关系相比，标准模型的多个性状。它允许对多个性状上的多个基因座的多效和异质遗传效应进行特异性表征，以及表型之间的因果关系，可用于预测复杂系统的行为，例如，疾病特征背后的生物学途径。更具体地说，对于畜牧业应用，关于数量性状遗传分析中表型网络的知识可能会改善外部干预的预测，这可能会导致更有效的育种计划，并有助于涉及农场管理和兽医实践的决策。