论文阅读(八):结构方程模型用于研究数量遗传学中的因果表型网络

1.论文链接:Structural Equation Models for Studying Causal Phenotype Networks in Quantitative Genetics

摘要:

表型性状可能在它们之间发挥因果作用。例如,农业物种的高产可能会增加某些疾病的易感性,相反,疾病的发生率可能会对产量产生负面影响。同样,转录组可能是植物和动物的生殖状态或发育阶段的函数,这也可能取决于其他生理变量。描述这种相互关系的表型网络的知识可用于预测复杂系统的行为,例如,疾病、生长和繁殖等复杂性状的生物学途径。本章综述了结构方程模型及相关技术在数量遗传学中表型性状间因果关系研究中的应用。它讨论了遗传因素如何混淆因果关系的搜索,以及如何系谱和基因组信息可以用来控制这种混淆效应,并帮助因果推理。

关键词:结构方程模型,数量遗传学,因果表型

表型性状可能在它们之间发挥因果作用。例如,农业物种的高产可能会增加某些疾病的易感性,相反,疾病的发生率可能会对产量产生负面影响。同样,转录组可能是植物和动物的生殖状态或发育阶段的函数,这也可能取决于其他生理变量。描述这种相互关系的表型网络的知识可用于预测复杂系统的行为,例如,疾病、生长和繁殖等复杂性状的生物学途径。本章回顾了结构方程模型(SEM)和相关技术在数量遗传学中研究表型性状间因果关系的应用。它还讨论了遗传因素如何混淆因果关系的搜索,以及如何使用系谱和基因组信息来控制这种混淆效应并帮助因果推理。

8.1介绍

表型性状可能在它们之间发挥因果作用。例如,农业物种的高产可能会增加某些疾病的易感性,相反,疾病的发生率可能会对产量产生负面影响。同样,转录组可能是植物和动物的生殖状态或发育阶段的函数,这也可能取决于其他生理变量。描述这种相互关系的表型网络的知识允许预测复杂系统的行为,与疾病、生长和繁殖相关的复杂性状的生物学途径。

结构方程模型(SEM)可用于研究多变量系统(如遗传基因组学、系统生物学和数量遗传学中的多性状模型)中表型之间的递归和同步关系。因此,SEM可以对性状之间的关系做出与传统多性状模型不同的解释,其中所有关系都由随机变量之间的对称线性关联(例如协方差和相关性)表示。

本章综述了扫描电镜和相关技术在多表型研究中的应用。此外,它还讨论了如何利用DNA多态性和谱系信息来辅助因果推理,通过利用孟德尔随机化的概念,并通过解释混淆的遗传效应。本章的组织结构如下。在第8.2节中,回顾了数量遗传学中常用的用于研究多性状的经典线性混合效应模型。接下来,在第8.3节中,混合模型被扩展以适应使用结构方程模型的表型性状之间的函数关系。在第8.4节中,提出了一种通用的数据驱动方法来搜索表型因果关系,在第8.5节中,讨论了如何利用基因组信息来帮助因果推断,以及如何使用系谱或分子标记数据来减轻与多效多基因效应相关的混淆效应。最后,提供了一个带有结论性意见的最后部分。

8.2数量遗传学中的经典线性混合效应模型

混合模型为数据分析提供了一种灵活的工具,其中响应围绕具有随机偏离的一些平均值进行聚类,使得同一聚类中的观测之间存在自然的依赖性,例如,家庭成员的遗传学研究。在数量遗传学中,特别是在动物和植物育种应用中,混合模型通常用于估计环境效应,遗传参数和与相关个体测量的表型性状相关的方差分量。它们在这一领域的受欢迎程度来自于它们处理复杂谱系、不平等家庭规模、世代重叠、性别限制性状、选择性交配和自然或阿尔蒂社会选择的灵活性[29,15]。在本节中,我们将简要回顾混合模型,并讨论它们在动物(和植物)育种中的一些应用。

8.3混合效应结构方程模型

8.4表型因果关系的数据驱动搜索

8.4.1总体概述

正如[12],[52]和[46]所指出的,混合效应SEM在数量遗传学中的应用并不像经典的MTAM那样简单。使用前一种模型意味着至少要应对两个额外的挑战:(1)模型参数的可识别性,以及(2)因果结构的选择。

如前所述,MTAMs被认为是饱和模型,这意味着它们有足够的色散参数来完美地消除任何联合分布。混合效应SEM的一个特征是它潜在地呈现了也与MTAM有关的每一个离散参数,但是为了表示表型之间的因果关联的大小,增加了更多的参数,这是协变的额外来源。这一特性导致模型过度识别,因此根据SEM的参数加载情况,它们的估计量可能无法从似然函数中识别。出于这个原因,模型限制对于SEM是必要的。这可以通过不同的方式来实现,从贝叶斯分析中使用适当的先验分布的参数收缩到模型中涉及的变量之间的一些条件独立性的假设[12,48]。

如果有任何利益的因果解释的SEM被tetted,那么所应用的限制必须反映先验的因果知识/假设。如前所述,最常见的参数限制是将SEM的残差协方差矩阵视为对角线,这对于设置非循环SEM是一个足够的限制。图8.3说明了图8.2所示结构的这种限制。幸运的是,这种限制反映了一些方法所采用的因果假设,这些方法解决了在数量遗传学中实施SEM的第二个挑战:寻找因果结构。接下来提供对问题和执行该搜索的方法的理论基础的概括描述。

如前所述,SEM是在因果结构上有条件地呈现的,因此建立一个表达变量之间因果关系的模型需要选择这样的结构中的先验结构。这种选择可能是复杂的,因为结构的空间通常太大,即使在研究几个性状时也不允许进行详尽的比较。此外,随着研究的性状数量的增加,其数量也会爆炸性地增长[42]。在随后的混合效应SEM的应用中[12],这种选择通常是基于先验知识/信念做出的,这可能被认为是对可能结构集的次优探索。尽管如此,已经开发了一些算法,以允许基于多变量样本和一组因果关系假设的因果关系理论[31,44]进行这种探索。在这里,我们专注于寻找非循环因果结构。接下来定义了一些术语来支持所涉及的概念的表达。

在Pearl [31]之后,具有非循环因果结构和独立残差的SEM等因果模型被称为马尔可夫模型。因果马尔可夫条件指出,马尔可夫因果模型诱导满足马尔可夫相容性的分布,这保证了因果结构和联合分布之间的连接,允许对结构进行数据驱动的搜索。这样的条件意味着假设不存在因果地影响分析变量集合中的两个或更多个变量的变量,这些变量不在集合中,即,因果关系假设[44]。这些概念是必要的,以保证因果结构中的每一个d-分离都被认为是抽样分布中稳定的条件独立性。因果关系假设通常被认为是一个强有力的假设,但这同样适用于具有独立残差的SEM,这是SEM应用的流行模型限制。此外,在大多数这些应用中,假设已知的因果结构,如果使用搜索算法,则情况并非如此。

搜索算法的其他典型假设是忠实性(由于参数值的不可能组合而不存在不稳定的条件独立性),整个人群的同质因果结构和正确的统计决策[44]。

8.4.2搜索算法

8.5遗传学应用中的因果结构推断

8.5.1作为工具变量的基因型信息

IC算法和上面讨论的相关方法适用于许多不同的背景下,以进一步我们对变量之间的函数关系和因果关系的理解。特别是在遗传学的背景下,这样的算法和方法也可以贝内于分子生物学知识,即信息(以及因果效应)从基因到表型的流动。此外,正如托马斯和孔蒂[45]所指出的,分离天然存在的等位基因变体的遗传随机化实验群体可以为推断变量之间的因果关系网络提供基础,如遗传位点(或基因),生理表型和疾病状态。特别是,在减数分裂期间发生的等位基因的随机化(通常称为孟德尔随机化)提供了类似于随机化实验设计的设置[36]。

在这种背景下,许多作者利用孟德尔随机化的概念来探索表型性状之间的因果关系。例如,[38]提出了一种方法来推断因果路径,涉及三个变量:特定基因的表达,特定基因座上的遗传多态性和复杂性状(例如,疾病特征)。考虑了三种可能的结构,它们被称为因果模型、反应模型和独立模型。提出了一种基于似然性的因果模型选择方法,该方法使用条件相关测量来确定数据最支持的三个变量之间的关系。然而,他们的程序仅限于简单的基因表型网络与三个节点,集中在识别基因的cathet-reactive间隔。

Schadt方法的扩展[38]由Li等人提出。[26],他提出了一种SEM方法来分析多位点,多性状遗传数据,以及它们之间的不同潜在因果关系。他们的方法包括五个步骤,从一系列数量性状基因座(QTL)基因组扫描开始,对每个个体表型进行边缘扫描,然后是使用一个性状作为协变量进行的条件基因组扫描。无条件扫描和有条件扫描结果之间的比较可以首次洞察表型之间的因果关系。第三步是指构建初始路径模型及其相应的SEM表示。在路径模型构建之后,通过比较预测和观察到的协方差矩阵以及对单个路径系数进行显著性检验来评估它们的优度。最后,通过提出和评估替代模型来执行额外的步骤来重新构建模型,这些替代模型是通过在初始模型中添加或删除边缘或通过反转边缘的因果方向来生成的。

Chaibub Neto等人[1]也使用QTL信息定位连接表型的边缘,提出了一种包括两个主要步骤的方法。首先,使用无向依赖图[42]或从Spirtes等人的PC算法导出的骨架构建关联网络。[44]。其次,使用对数比值比(LOD)得分检验来确定连接一对表型,条件QTL的表型。作者使用模拟研究评估了他们的方法的性能,表明它可以恢复网络边缘并以高速率正确推断其因果方向。

Chaibub Neto等人[1]提出的方法依赖于有关影响感兴趣表型性状的QTL的可靠信息的可用性。然而,如Chaibub Neto等人[2]所讨论的,传统的QTL定位方法基于单性状分析,其中没有考虑表型之间的网络结构。这种单性状分析可以检测直接影响每个表型的QTL,以及具有间接效应的QTL(相对于所分析的性状集),其直接影响所分析的特定表型上游的表型。因此,传统的QTL作图方法忽略了表型网络,导致表型的遗传结构估计不佳,这可能会妨碍关于表型之间因果关系的正确推断。

鉴于传统QTL分析和表型网络重建方法的这一缺点,Chaibub等人[2]提出了一种同时推断因果表型网络及其相关遗传结构的方法。他们的方法是基于联合建模表型和QTL使用齐次条件高斯回归模型和模型等效性的图形标准。利用减数分裂过程中等位基因随机化的概念和基因型与表型的单向关系来推断具有表型因果效应的QTL。伴随着,表型之间的因果关系推断探索QTL节点,这可能使得有可能区分表型网络,否则将分布等效。

8.5.2多基因混杂效应的解释

在前一节中讨论的表型网络重建方法依赖于关于影响表型的QTL的信息,或者依赖于遗传标记信息的可用性,用于关于表型网络和遗传结构的联合推断。然后,QTL被用作推定网络上的亲本节点,促进对网络其余部分的推断,例如建立表型性状之间的因果关系。

然而,即使遗传标记信息不可用,SEM相关技术仍然可以用于数量遗传学研究表型性状之间的功能关系。如第8.3节所述,混合效应模型设置中的SEM适应通常应用于数量遗传学[12],此后许多研究不同物种和表型性状的研究人员都应用了SEM。然而,在这样的应用中,因果结构被假定为先验已知的(例如,[7,20]),或者仅比较使用一些现有知识选择的几个推定结构(例如,[3、4、48、51])。尽管如此,可以认为,即使没有关于QTL的信息,也可以使用数据驱动的算法来推断(至少部分地)表型性状之间的因果关系,该算法搜索因果结构,如第8.4节所示。

这方面的一个困难,正如Valente等人所指出的。[46],在混合效应SEM中(如Gianola和Sorensen [12]所提出的),观察到的性状之间的关联不仅可以通过它们之间的因果联系来解释,而且可以通过遗传原因来解释,即使残差被假设为独立的。因此,考虑独立残差不足以保证因果结构与表型联合分布之间的联系。在这种情况下考虑的未观察到的相关遗传效应可能会混淆因果结构搜索,如果一个人试图执行它的基础上的联合分布的表型。

8.6总结

虽然SEM可以被解释为一个因果模型,因此它可以用来表达表型性状之间的因果关系,但SEM的因果结构可能无法正确反映模型性状之间的实际因果关系。此外,通过研究观测数据,推断因果结构是一项比仅仅通过建立多变量模型来描述数据的联合分布要困难得多的任务。在这种情况下,只有当人们愿意接受因果假设时,应用IC算法和相关技术才可以被认为是因果结构推断。如果假设被认为是太强,这样的算法仍然可以应用于探索空间的因果结构的SEM构造与对角残差协方差矩阵。尽管如此,后者的应用仍然可能产生有趣和有用的结果。一些因果学习并不需要所有上述假设。以Valente等人[47]获得的图8.4所示的结构为例。即使人们不愿意假设因果关系,也可以根据因果马尔可夫条件并通过确认有关35天体重的时间序列信息,第一个鸡蛋的年龄和鸡蛋产量的因果影响。此外,这些方法的应用程序是有用的因果关系的假设为随后的研究和调查的发电机。然后,可以使用其他研究中收集的额外数据来支持或驳回这些假设,或者可以通过受控干预进行实验测试。然而,在许多情况下,由于逻辑或伦理约束,随机实验是不可行的,因此观察数据是关于所研究系统的唯一可用信息。在这种情况下,SEM和因果搜索工具,如IC算法是方便的。

特别是在遗传学和基因组学研究中,因果推理受到孟德尔随机化概念的帮助[45],其中等位基因变体在减数分裂期间随机分配给合子,并最终从父母传递到O spring,类似于随机实验设计。将SEM相关方法应用于多性状QTL分析和基因定位,不仅通过打破不同因果结构之间的统计等效性来改善对表型之间因果关系的推断,而且还提高了检测能力和估计精度,并具有区分QTL对每个性状的直接和间接遗传效应的额外优势[2]。此外,在遗传学研究中,可以使用例如基因敲除或敲低技术来最终测试推定的致病突变。除了DNA多态性信息和关于基因或QTL的知识可以用作表型网络重建中的亲本节点之外,转录组、代谢组和蛋白质组等多层大规模组学数据的联合分析当然可以提供额外的信息并增强推断因果表型关系的能力,尽管它也带来了另一个统计、计算、数据挖掘的挑战[22]此外,结构和功能数据,如基因序列、基因定位、转录结合位点、基因本体(GO)和代谢途径等,也可用于验证和测试推定的基因和表型网络[22]。这些数据也可以用作先验信息来帮助网络推理,与它已经用于其他组学应用(如微阵列数据)的方式相同[37]。

SEM还应用于系谱信息可用但QTL或任何基因组信息不可用的情况[12]。如前所述,这种建模方法允许对性状之间的关系进行不同的解释,相对于传统上用于动物育种的标准多性状模型。在经典模型中,所有的关系都被认为是性状之间的对称线性关联。在大多数混合效应SEM的应用中,先验信念被用作指定因果结构的基础,或者用于选择使用传统模型选择技术进行比较的几个结构。或者,可以在混合模型和定量遗传学的背景下对递归因果结构进行更广泛的数据驱动搜索[46]。为了控制遗传效应,这是在这种情况下寻找非循环因果结构所必需的,[46,47]应用了经典的单因素加性遗传模型,该模型涉及从谱系信息构建的关系矩阵A。通过使用高密度分子标记数据(例如,SNP基因型)。在这种情况下,可以采用遗传价值预测方法,例如贝叶斯回归技术[11]或核方法[5]。

总之,SEM应用程序提供了额外的见解,并可能提出更丰富的表达的关系相比,标准模型的多个性状。它允许对多个性状上的多个基因座的多效和异质遗传效应进行特异性表征,以及表型之间的因果关系,可用于预测复杂系统的行为,例如,疾病特征背后的生物学途径。更具体地说,对于畜牧业应用,关于数量性状遗传分析中表型网络的知识可能会改善外部干预的预测,这可能会导致更有效的育种计划,并有助于涉及农场管理和兽医实践的决策。

参考文献

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/10190.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

每日一题——序列化二叉树

序列化二叉树 BM39 序列化二叉树题目描述序列化反序列化 示例示例1示例2 解题思路序列化过程反序列化过程 代码实现代码说明复杂度分析总结 BM39 序列化二叉树 题目描述 请实现两个函数,分别用来序列化和反序列化二叉树。二叉树的序列化是将二叉树按照某种遍历方式…

JVM_程序计数器的作用、特点、线程私有、本地方法的概述

①. 程序计数器 ①. 作用 (是用来存储指向下一条指令的地址,也即将要执行的指令代码。由执行引擎读取下一条指令) ②. 特点(是线程私有的 、不会存在内存溢出) ③. 注意:在物理上实现程序计数器是在寄存器实现的,整个cpu中最快的一个执行单元 ④. 它是唯一一个在java虚拟机规…

Attention--人工智能领域的核心技术

1. Attention 的全称与基本概念 在人工智能(Artificial Intelligence,AI)领域,Attention 机制的全称是 Attention Mechanism(注意力机制)。它是一种能够动态分配计算资源,使模型在处理输入数据…

机器学习2 (笔记)(朴素贝叶斯,集成学习,KNN和matlab运用)

朴素贝叶斯模型 贝叶斯定理: 常见类型 算法流程 优缺点 集成学习算法 基本原理 常见方法 KNN(聚类模型) 算法性质: 核心原理: 算法流程 优缺点 matlab中的运用 朴素贝叶斯模型 朴素贝叶斯模型是基于贝叶斯…

智慧园区系统助力企业智能化升级实现管理效率与安全性全方位提升

内容概要 在当今数字化转型的浪潮中,企业面临着前所未有的挑战和机遇。智慧园区系统作为一种创新性解决方案,正在快速崛起,帮助企业实现全面的智能化升级。这套系统不仅仅是一个简单的软件工具,而是一个强大的综合管理平台&#…

【视频+图文详解】HTML基础4-html标签的基本使用

图文教程 html标签的基本使用 无序列表 作用&#xff1a;定义一个没有顺序的列表结构 由两个标签组成&#xff1a;<ul>以及<li>&#xff08;两个标签都属于容器级标签&#xff0c;其中ul只能嵌套li标签&#xff0c;但li标签能嵌套任何标签&#xff0c;甚至ul标…

电子电气架构 --- 在智能座舱基础上定义人机交互

我是穿拖鞋的汉子&#xff0c;魔都中坚持长期主义的汽车电子工程师。 老规矩&#xff0c;分享一段喜欢的文字&#xff0c;避免自己成为高知识低文化的工程师&#xff1a; 简单&#xff0c;单纯&#xff0c;喜欢独处&#xff0c;独来独往&#xff0c;不易合同频过着接地气的生活…

SAP SD学习笔记27 - 请求计划(开票计划)之1 - 定期请求

上两章讲了贩卖契约&#xff08;框架协议&#xff09;的概要&#xff0c;以及贩卖契约中最为常用的 基本契约 - 数量契约和金额契约。 SAP SD学习笔记26 - 贩卖契约(框架协议)的概要&#xff0c;基本契约 - 数量契约_sap 框架协议-CSDN博客 SAP SD学习笔记27 - 贩卖契约(框架…

Ansible自动化运维实战--fetch、cron和group模块(5/8)

文章目录 一、fetch 模块1.1、功能1.2、常用参数1.3、测试1.4、注意事项 二、cron 模块2.1、功能2.2、常用参数2.3、注意事项 三、group模块3.1、功能3.2、常用参数3.3、例子3.4、注意事项 一、fetch 模块 1.1、功能 fetch 模块的主要功能是将远程主机上的文件复制到本地控制…

C++中常用的十大排序方法之1——冒泡排序

成长路上不孤单&#x1f60a;&#x1f60a;&#x1f60a;&#x1f60a;&#x1f60a;&#x1f60a; 【&#x1f60a;///计算机爱好者&#x1f60a;///持续分享所学&#x1f60a;///如有需要欢迎收藏转发///&#x1f60a;】 今日分享关于C中常用的排序方法之——冒泡排序的相关…

商密测评题库详解:商用密码应用安全性评估从业人员考核题库详细解析(8)

1. 重要领域网络和信息系统的范畴 题目 根据《商用密码应用安全性评估管理办法(试行)》,下列哪些属于重要领域网络和信息系统( )。 A. 基础信息网络 B. 面向社会服务的政务信息系统 C. 重要工业控制系统 D. 以上都是 答案 D 答案解析 依据《商用密码应用安全性评…

openssl 生成证书 windows导入证书

初级代码游戏的专栏介绍与文章目录-CSDN博客 我的github&#xff1a;codetoys&#xff0c;所有代码都将会位于ctfc库中。已经放入库中我会指出在库中的位置。 这些代码大部分以Linux为目标但部分代码是纯C的&#xff0c;可以在任何平台上使用。 源码指引&#xff1a;github源…

SpringBoot整合Swagger UI 用于提供接口可视化界面

目录 一、引入相关依赖 二、添加配置文件 三、测试 四、Swagger 相关注解 一、引入相关依赖 图像化依赖 Swagger UI 用于提供可视化界面&#xff1a; <dependency><groupId>io.springfox</groupId><artifactId>springfox-swagger-ui</artifactI…

Nuxt:利用public-ip这个npm包来获取公网IP

目录 一、安装public-ip包1.在Vue组件中使用2.在Nuxt.js插件中使用public-ip 一、安装public-ip包 npm install public-ip1.在Vue组件中使用 你可以在Nuxt.js的任意组件或者插件中使用public-ip来获取公网IP。下面是在一个Vue组件中如何使用它的例子&#xff1a; <template…

QT串口通信,实现单个温湿度传感器数据的采集

1、硬件设备 RS485中继器(一进二出),usb转485模块、电源等等 => 累计115元左右。 2、核心代码 #include "MainWindow.h" #include "ui_MainWindow.h"MainWindow::

【深度分析】DeepSeek 遭暴力破解,攻击 IP 均来自美国,造成影响有多大?有哪些好的防御措施?

技术铁幕下的暗战&#xff1a;当算力博弈演变为代码战争 一场针对中国AI独角兽的全球首例国家级密码爆破&#xff0c;揭开了数字时代技术博弈的残酷真相。DeepSeek服务器日志中持续跳动的美国IP地址&#xff0c;不仅是网络攻击的地理坐标&#xff0c;更是技术霸权对新兴挑战者的…

【漫话机器学习系列】068.网格搜索(GridSearch)

网格搜索&#xff08;Grid Search&#xff09; 网格搜索&#xff08;Grid Search&#xff09;是一种用于优化机器学习模型超参数的技术。它通过系统地遍历给定的参数组合&#xff0c;找出使模型性能达到最优的参数配置。 网格搜索的核心思想 定义参数网格 创建一个包含超参数值…

Transformer+vit原理分析

目录 一、Transformer的核心思想 1. 自注意力机制&#xff08;Self-Attention&#xff09; 2. 多头注意力&#xff08;Multi-Head Attention&#xff09; 二、Transformer的架构 1. 整体结构 2. 编码器层&#xff08;Encoder Layer&#xff09; 3. 解码器层&#xff08;Decoder…

【MySQL】MySQL客户端连接用 localhost和127.0.0.1的区别

# systemctl status mysqld # ss -tan | grep 3306 # mysql -V localhost与127.0.0.1的区别是什么&#xff1f; 相信有人会说是本地IP&#xff0c;曾有人说&#xff0c;用127.0.0.1比localhost好&#xff0c;可以减少一次解析。 看来这个入门问题还有人不清楚&#xff0c;其实…

爬虫基础(三)Session和Cookie讲解

目录 一、前备知识点 &#xff08;1&#xff09;静态网页 &#xff08;2&#xff09;动态网页 &#xff08;3&#xff09;无状态HTTP 二、Session和Cookie 三、Session 四、Cookie &#xff08;1&#xff09;维持过程 &#xff08;2&#xff09;结构 正式开始说 Sessi…