论文阅读(十五):DNA甲基化水平分析的潜变量模型

1.论文链接:Latent Variable Models for Analyzing DNA Methylation

摘要:

脱氧核糖核酸(DNA)甲基化与细胞分化密切相关。例如,已经观察到肿瘤细胞中的DNA甲基化编码关于肿瘤的表型信息。因此,通过研究DNA甲基化数据的多元结构,可以有效地增强对肿瘤生物学的理解。在某种程度上,这些数据具有离散的潜在结构,它可以被视为编码不同的肿瘤亚型(在癌症研究中)或组织类型(更一般地)。然而,在某些情况下,可能有更多的证据表明连续的潜在结构反映了连续的变化范围。本章讨论了在过去十年中用于分析DNA甲基化数据的几种特定潜变量模型,包括在低维环境中建模DNA甲基化数据的方法,例如在候选基因研究中,以及在高维环境中建模DNA甲基化的递归分区混合模型方法。

关键词:DNA甲基化,隐变量模型,递归分区混合模型

DNA甲基化与细胞分化密切相关。例如,已经观察到肿瘤细胞中的DNA甲基化编码关于肿瘤的表型信息。因此,通过研究DNA甲基化数据的多元结构,可以有效地增强对肿瘤生物学的理解。在某种程度上,这些数据具有离散的潜在结构,它可以被视为编码不同的肿瘤亚型(在癌症研究中)或组织类型(更一般地)。然而,在某些情况下,可能有更多的证据表明连续的潜在结构反映了连续的变化范围。本章讨论了在过去十年中用于分析DNA甲基化数据的几个特定的潜变量模型。首先讨论了在低维环境中(如候选基因研究中)建模DNA甲基化数据的方法。离散和连续潜变量是有区别的,前者由尼特混合模型或其非参数类似物(通常被描述为聚类)组成,后者由通常涉及数值积分的潜在特质模型组成。然后在高维环境中建模DNA甲基化的方法,例如从表达中获得的数据,微阵列,进行了讨论。在这种情况下,连续潜变量变得难以操作和解释,因此重点只放在计算效率高的聚类方法上。递归分区混合模型(RPMM)以类似于分层聚类的分层格式呈现类,从而允许以常规算法不支持的方式进行树修剪。然而,RPMM不能处理从现今标准甲基化阵列获得的数据。因此,RPMM配备了一个预处理步骤,以产生半监督RPMM(SS-RPMM),这是一个可扩展的过程。

15.1介绍

表观遗传学是研究基因功能的可遗传变化,而这些变化不能用DNA序列的变化来解释。任何多系统生命形式的发育都是以系统性细胞分化为基础的,由细胞的谱系定型决定,其起源可以追溯到多能祖细胞。现在已经确定,这种谱系承诺的标志是有丝分裂可遗传的表观遗传变化,反映了复杂的转录程序。一个这样的表观遗传标记是在DNA碱基对C和鸟嘌呤(G)(CpG二核苷酸)的胞嘧啶(C)上添加甲基;这种甲基化标记与染色质和核小体DNA sca?old的改变紧密相关,而染色质和核小体DNA sca?old又负责个体细胞内基因表达的协调[20,23,32]。因此,DNA甲基化与细胞分化密切相关,其CpG二核苷酸序列上的甲基化蛋白实质上编码了有关其细胞功能的信息.例如,图15.1,来自[8],描述了一个聚类热图,显示了11种不同组织类型基于其500个CpG二核苷酸处的DNA甲基化蛋白聚类的程度。图15.1表明,从多变量的角度来看,DNA甲基化的测量保留了许多关于细胞类型的信息。

这一事实已在癌症生物学中被利用来区分肿瘤,这些肿瘤在其分子特征的基础上在组织病理学上看起来相似。特别是,CpG岛甲基化表型(CIMP)已成为了解癌症的流行构建体[16,35,42,43]。从本质上讲,已经观察到肿瘤细胞中的DNA甲基化,在少数基因的启动子区域中测量,编码关于肿瘤的表型信息。因此,通过研究DNA甲基化测量的向量Y的多变量结构,有效地增强了对肿瘤生物学的理解。在某种程度上,Y具有离散的潜在结构,它可以被视为编码不同的肿瘤亚型(在癌症研究中)或组织类型(更一般)。然而,在某些情况下,可能有更多的证据表明连续的潜在结构反映了连续的变化范围[29,30]。

对于给定的CpG,可以预期细胞的克隆群体具有分类甲基化状态,0、1/2或1,这取决于CpG分别在两条染色体、一条染色体或两条染色体上是否甲基化。由于半甲基化(仅在一条染色体上的DNA甲基化)相对罕见,因此克隆细胞群体上的DNA甲基化分析可以被视为观察到的二分变量向量上的潜在变量问题。虽然肿瘤群体通常是克隆的,但在实践中,在没有劳动密集型显微切割技术的情况下,通常很难将肿瘤细胞与周围的正常细胞或间质组织分离。此外,人们对测定全血中的DNA甲基化感兴趣[31,39,6],其DNA甲基化状态由不同循环血细胞的混合物决定[34,44]。因此,DNA甲基化测量在实践中可能是单位区间内的连续变量,双峰(在相对克隆的细胞群体的情况下)或单峰(在极其异质的混合物如血液的情况下)。

假设Y的各分量的分布取决于技术。有各种各样的测定和微阵列平台可用于测量DNA甲基化; Peter Laird最近的综述中提供了一个全面的列表[25]。流行的例子包括甲基化特异性聚合酶链反应(PCR)[15],COBRA [45],PCR后焦磷酸测序[41],MethyLight [12],Sequenom [21],Illumina甲基化阵列[3-5]和MeDIP [36]。这些方法中的第一个是劳动密集型方法的例子,适用于候选基因研究或微阵列结果的验证,而后两个方法允许高通量分析。甲基化特异性PCR(MSP)为每个询问的位点(基因)产生二分值,未甲基化(编码为0)和甲基化(编码为1)。COBRA、焦磷酸测序、MethyLight、Sequenom和Illumina甲基化阵列为每个询问的基因座产生0和1之间的区间缩放值。一些平台,如MethyLight,原则上可以产生任意大的值,超过1,尽管这种难以解释的事件通常很少发生。另一方面,MeDIP产生以规则间隔测量的荧光强度值,具有非常密集的基因组覆盖范围,并且通常减少到与p值相关的峰值强度;峰值的解释意味着是二分法的。

图15.2说明了本章所考虑的模型类型。假设来自潜在大量J个个体基因座的DNA甲基化测量值Yij具有由它们对共同的未观察到的变量Zi的依赖性引起的相关性。变量Zi可以是分类变量或单变量连续变量,代表分子亚型或总体甲基化倾向,本身可能受协变量xi的影响。从统计建模的角度来看,这是一个看似简单的公式,但潜在的大量基因座,J,可以复杂的估计和解释。

在本章的其余部分,我们讨论了几个特定的潜变量模型,这些模型在过去十年中被用来分析DNA甲基化数据。在第17.2节中,我们讨论了在低维环境(小J)中建模DNA甲基化数据的方法,例如,候选基因研究在这里,我们区分离散和连续的潜变量,前者由尼特混合模型或其非参数类似物(通常被描述为聚类)组成,后者由通常涉及数值积分的潜在特质模型组成。在第17.3节中,我们讨论了在高维环境(大J)中建模DNA甲基化的方法,例如,数据来自表达微阵列。在这种情况下,连续潜变量变得难以操作和解释,因此我们只关注计算效率高的聚类方法。

在下面的数学阐述中,矩阵总是用粗体大写字母表示。大写字母也用于指定一个随机变量,而小写字母则用于指定数量。粗体字母也表示矢量(随机或固定),而普通类型表示标量。除非另有说明,否则所有向量都假定为列向量,其中行向量被写为转置列向量。

15.2低维环境下DNA甲基化的潜变量方法

当位点数J的值相对较小时,可以构建丰富的图形模型。在本节中,我们描述了几种用于小候选基因研究的方法,这些方法大多出现在世纪的前十年中期。

15.2.1离散潜变量

当Zi是离散变量时,相应的潜变量分析导致聚类问题。尽管许多流行的非参数聚类技术,如K均值或分层聚类,已用于DNA甲基化数据的分析[35],但有证据表明基于可能性的方法可能提供上级结果[37]。因此,我们在本章中主要关注这种基于似然性的方法,这些方法通常被称为基于模型的聚类[13,14]。这些方法最终依赖于我们现在描述的“尼特混合物模型”。

15.2.2连续潜变量

15.3高维环境下DNA甲基化的潜变量方法

现代DNA甲基化研究利用高密度微阵列甚至基于测序的技术,导致高维数据集的J值极大。表15.2展示了常见可用阵列的维度与第17.2节中描述的应用中遇到的维度的比较。在这种情况下,一维连续的Z是不切实际的,而维度足以建模Y的多变量Z会导致使用严格的基于似然的方法时计算不可行。即使是有限混合模型(15.1)在使用标准软件如Mplus[13]进行拟合时也很耗时。因此,分析高维基因组数据的可行算法需要简化假设。在本节中,我们描述了一些用于分析DNA甲基化阵列的方法。

15.3.1基于模型的聚类:递归分区混合模型

RPMM已在许多环境中使用。在其首次亮相[18]时,它被用于对图15.1中所示的211个组织的DNA甲基化过程进行聚类,从而产生与组织类型高度对应的潜在类别。在一项检查胸膜间皮瘤和正常胸膜的DNA甲基化的研究中,RPMM分类与肿瘤和正常分类高度一致,与肺石棉负荷相关,并预测患者生存[7]。在另一项检查HNSCC肿瘤的研究中[28],RPMM类别区分了正常和肿瘤样本,如图15.4所示,并与其他病因因素良好相关,如图15.5所示(第400页)。对应于这些HNSCC肿瘤子集的RPMM类别分配也与拷贝数改变的类别相关[33],如图15.6所示(第400页)。在一项乳腺癌研究中,RPMM甲基化类别与肿瘤大小、酒精和膳食叶酸摄入量相关[9],在一项神经胶质瘤研究中,发现RPMM类别与生存率和IDH1基因突变相关[10]。在结肠癌中发现了RPMM甲基化类别和突变之间的类似关联[16]。

15.3.2半监督递归分区混合模型

RPMM算法被设计为解决分析GoldenGate甲基化阵列(Illumina)的要求,其询问J = 1505个CpG位点。然而,来自Illumina的标准甲基化阵列现在询问从27 578到485 577个CpG位点的任何地方,远远超过甚至RPMM的计算能力。此外,对于任何给定的临床或流行病学问题,甚至可能很难制定一个简单的潜在变量模型,可以有意义地与感兴趣的结果相关。

受Bair和Tibshirani [1]提出的“半监督”方法的启发,RPMM配备了预处理步骤以产生半监督RPMM(SS-RPMM)[24]。在该方法中,根据DNA甲基化测定值关于临床结果提供信息的程度对每个CpG进行排序。选择M个信息量最大的CpG以包括在RPMM算法中,其中M的值经由十倍交叉验证来选择以优化预测性能。在独立数据集中验证结果(可能通过在对CpG进行排名之前将较大样本分成训练集和测试集来获得):通过独立数据集中受试者的经验贝叶斯预测RPMM类别分配,并评估预测的类别成员资格和结果之间的关联。独立或分裂样本验证用于规避可能由于使用将用于进行最终预测推断的数据预选位点而导致的过度设置的可能性。

SS-RPMM已用于膀胱癌病例对照研究,以预测使用In 27 K微阵列(Illumina)从全血中测定的DNA甲基化的病例状态[31]。此外,它已被用于来自相同阵列技术的数据,以检查人类胎盘中DNA甲基化与婴儿生长受限之间的关联[2]。

15.4结论

我们概述了用于DNA甲基化数据分析的潜在变量模型。所使用的两种主要模型类型是尼特混合模型(15.1),一种本质上离散的潜变量建模方法,以及潜在特质模型(15.5)的变体。随着时间的推移,前一种方法比后一种方法更有用,因为它的结果已被证明更容易解释,并且与CpG岛甲基化表型(CIMP)的想法一致,该想法包含DNA甲基化过程中固有的“分子亚型”,或者在分析mRNA表达数据的背景下类似的想法[1]。此外,Nite混合模型更容易扩展到高维环境,其中通过连续潜在特征对相关性进行充分表征将需要中等或高维的多变量潜在连续维度,从而使数值求积复杂化,并导致MCMC方法即使在中等维度下也被证明是繁琐的[19]。然而,最近的工作已经将奇异值分解[26]或独立成分分析[40]应用于mRNA表达和DNA甲基化数据,目的是表征技术噪声并对其进行解释。这些论文中考虑的高维需要类似于[24]中提出的基因座选择技术,因此代表了类似于上面第17.3节中讨论的折衷方案。

在低维设置中,模型(15 - 1)可以以类似于模型(15 - 5)的方式调节协变量xTγ。然而,在高维中,要求γ对所有类保持恒定会破坏通过递归划分数据集所获得的计算增益。因此,首选方法是在第二阶段分析中估计类别成员关系的协变量依赖性;简单的双变量方法出现在[7,28]中,而用于模拟更复杂的多变量关联的多项逻辑回归方法出现在[9]中。目前的研究涉及使用更复杂的多变量分布g来解释与相同基因相关的CpG基因座之间的相关性,或者通过两个不同的阵列测量的相同CpG基因座之间的相关性(例如,在不同的组织或在同一组织在不同的时间点);也正在调查的是更多的生物驱动的选择CpG基因座的方法,类似于SS-RPMM。

参考文献

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/8787.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于PostgreSQL的自然语义解析电子病历编程实践与探索(上)

一、引言 1.1研究目标与内容 本研究旨在构建一个基于 PostgreSQL 的自然语义解析电子病历编程体系,实现从电子病历文本中提取结构化信息,并将其存储于 PostgreSQL 数据库中,以支持高效的查询和分析。具体研究内容包括: 电子病历的预处理与自然语言处理:对电子病历文本进…

第1章 量子暗网中的血色黎明

月球暗面的危机与阴谋 量子隧穿效应催生的幽蓝电弧,于环形山表面肆意跳跃,仿若无数奋力挣扎的机械蠕虫,将月球暗面的死寂打破,徒增几分诡异。艾丽伫立在被遗弃的“广寒宫”量子基站顶端,机械义眼之中,倒映着…

【落羽的落羽 数据结构篇】顺序表

文章目录 一、线性表二、顺序表1. 概念与分类2. 准备工作3. 静态顺序表4. 动态顺序表4.1 定义顺序表结构4.2 顺序表的初始化4.3 检查空间是否足够4.3 尾部插入数据4.4 头部插入数据4.5 尾部删除数据4.6 头部删除数据4.7 在指定位置插入数据4.8 在指定位置删除数据4.9 顺序表的销…

大模型GUI系列论文阅读 DAY4续:《Large Language Model Agent for Fake News Detection》

摘要 在当前的数字时代,在线平台上虚假信息的迅速传播对社会福祉、公众信任和民主进程构成了重大挑战,并影响着关键决策和公众舆论。为应对这些挑战,自动化假新闻检测机制的需求日益增长。 预训练的大型语言模型(LLMs&#xff0…

基于物联网的智能环境监测系统(论文+源码)

1系统的功能及方案设计 本课题为基于物联网的智能环境监测系统的设计与实现,整个系统采用stm32f103单片机作为主控制器,通过DHT11传感器实现智能环境监测系统温度和湿度的检测,通过MQ传感器实现CO2浓度检测,通过光照传感器实现光照…

反向代理模块。。

1 概念 1.1 反向代理概念 反向代理是指以代理服务器来接收客户端的请求,然后将请求转发给内部网络上的服务器,将从服务器上得到的结果返回给客户端,此时代理服务器对外表现为一个反向代理服务器。 对于客户端来说,反向代理就相当于…

AI工具灵感速递:离线ChatGPT×自然语言全栈开发×智能文件重命名,开发者效率革命!

↓ 关注小前,捕获全球产品灵感 ↓ ⚡️ 1句Slogan榨干产品灵魂 ⚡️ 3秒 get 全球独立开发者的爆款灵感 今日精选速览: ▸ Llamao:离线私密ChatGPT,设备端AI助手 ▸ co.dev:用自然语言打造全栈应用 ▸ Smart Bul…

【MySQL — 数据库增删改查操作】深入解析MySQL的 Update 和 Delete 操作

1. 测试数据 mysql> select* from exam1; ----------------------------------------- | id | name | Chinese | Math | English | ----------------------------------------- | 1 | 唐三藏 | 67.0 | 98.0 | 56.0 | | 2 | 孙悟空 | 87.0 | 78.…

fpga系列 HDL:XILINX Vivado Vitis 高层次综合(HLS) 实现 EBAZ板LED控制(上)

目录 创建工程创建源文件并编写C代码C仿真综合仿真导出RTL CG导出RTL错误处理: 创建工程 创建源文件并编写C代码 创建源文件(Souces下的hlsv.h和hlsv.cpp,Test Bench下的test_hlsv1.cpp): hlsv1.h #ifndef HLSV1 #define HLSV1 #include &l…

定西市建筑房屋轮廓数据shp格式gis无偏移坐标(字段有高度和楼层)内容测评

定西市建筑房屋轮廓数据是GIS(Geographic Information System,地理信息系统)领域的重要资源,用于城市规划、土地管理、环境保护等多个方面。这份2022年的数据集采用shp(Shapefile)格式,这是一种…

学习数据结构(1)时间复杂度

1.数据结构和算法 (1)数据结构是计算机存储、组织数据的方式,指相互之间存在⼀种或多种特定关系的数据元素的集合 (2)算法就是定义良好的计算过程,取一个或一组的值为输入,并产生出一个或一组…

有限元分析学习——Anasys Workbanch第一阶段笔记梳理

第一阶段笔记主要源自于哔哩哔哩《ANSYS-workbench 有限元分析应用基础教程》 张晔 主要内容导图: 笔记导航如下: Anasys Workbanch第一阶段笔记(1)基本信息与结果解读_有限元分析变形比例-CSDN博客 Anasys Workbanch第一阶段笔记(2)网格单元与应力奇…

设计模式Python版 原型模式

文章目录 前言一、原型模式二、原型模式示例三、原型管理器 前言 GOF设计模式分三大类: 创建型模式:关注对象的创建过程,包括单例模式、简单工厂模式、工厂方法模式、抽象工厂模式、原型模式和建造者模式。结构型模式:关注类和对…

【Redis】缓存+分布式锁

目录 缓存 Redis最主要的使用场景就是作为缓存 缓存的更新策略: 1.定期生成 2.实时生成 面试重点: 缓存预热(Cache preheating): 缓存穿透(Cache penetration) 缓存雪崩 (Cache avalan…

小阿卡纳牌

小阿卡纳牌 风:热湿 火:热干 水:冷湿 土:冷干 火风:温度相同,但是湿度不同,二人可能会在短期内十分热情,但是等待热情消退之后,会趋于平淡。 湿度相同、温度不同&#x…

初始JavaEE篇 —— Spring Web MVC入门(上)

找往期文章包括但不限于本期文章中不懂的知识点: 个人主页:我要学编程程(ಥ_ಥ)-CSDN博客 所属专栏:JavaEE 目录 RequestMappingg 注解介绍 Postman的介绍与使用 PostMapping 与 GetMapping 注解 构造并接收请求 接收简单参数 接收对象…

python -m pip和pip的主要区别

python -m pip和pip的主要区别在于它们与Python环境的关联方式和安装路径。‌ ‌与Python环境的关联方式‌: pip 是直接使用命令行工具来安装Python包,不指定特定的Python解释器。如果系统中存在多个Python版本,可能会导致安装的包被安装到…

golang通过AutoMigrate方法自动创建table详解

一.AutoMigrate介绍 1.介绍 在 Go 语言中,GORM支持Migration特性,支持根据Go Struct结构自动生成对应的表结构,使用 GORM ORM 库的 AutoMigrate 方法可以自动创建数据库表,确保数据库结构与定义的模型结构一致。AutoMigrate 方法非常方便&am…

SuperAGI - 构建、管理和运行 AI Agent

文章目录 一、关于 SuperAGI💡特点🛠 工具包 二、⚙️安装☁️SuperAGI云🖥️本地🌀 Digital Ocean 三、架构1、SuperAGI 架构2、代理架构3、代理工作流架构4、Tools 架构5、ER图 一、关于 SuperAGI SuperAGI 一个开发优先的开源…

CSAPP学习:前言

前言 本书简称CS:APP。 背景知识 一些基础的C语言知识 如何阅读 Do-做系统 在真正的系统上解决具体的问题,或是编写和运行程序。 章节 2025-1-27 个人认为如下章节将会对学习408中的操作系统与计算机组成原理提供帮助,于是先凭借记忆将其简单…