《校正病例对照微生物组研究中的批次效应》

《Correcting for batch effects in case-control microbiome studies》

  • 文章地址:https://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1006102
  • DOI:https://doi.org/10.1371/journal.pcbi.1006102
  • 期刊:PLoS Computational Biology
  • 2022年影响因子/中科院分区:4.779/中科院1区
  • 发布时间:2019年1月24日
  • 校正病例对照微生物组研究中的批次效应
  • github:https://github.com/seangibbons/percentile_normalization
    • 摘要:
    • 介绍
    • 方法
      • 数据
      • 数据预处理
      • 百分位标准化
      • combat
      • limma
      • 数据分析
      • 计算实验
    • 结果
      • 批次效应在 OTU-level 上解决
      • 批次效应在属级跨多种疾病上的解决
    • 讨论

文章地址:https://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1006102

DOI:https://doi.org/10.1371/journal.pcbi.1006102

期刊:PLoS Computational Biology

2022年影响因子/中科院分区:4.779/中科院1区

发布时间:2019年1月24日

校正病例对照微生物组研究中的批次效应

github:https://github.com/seangibbons/percentile_normalization

摘要:

    高通量数据生成平台,如质谱、微阵列和第二代测序,由于试剂设备协议人员的运行变化,容易受到批处理影响。目前(文章投稿于2018),批量校正方法并不常用于微生物组测序数据集。在本文中,我们比较了不同的批校正方法应用于微生物组病例对照研究。我们引入了一种无模型的归一化程序。在研究中,在跨研究样本汇集数据之前,将样本的特征转换为对照样本中等效特征的百分位数。我们引入了一种无模型的归一化程序,在研究中,在跨研究样本汇集数据之前,将样本的特征转换为对照样本中等效特征的百分位数。我们将研究这种百分位数归一化方法与结合独立p值以及limmaComBat的传统元分析方法之间的比较。这些方法广泛用于为RNA微阵列数据开发的批量校正。总的来说,我们表明百分位归一化是一种简单的、非参数的方法,提高病例与对照组区分的敏感性。

介绍

    通过质谱、第二代测序或微阵列等高通量方法产生的数据对实验和计算处理很敏感。这种敏感性使得在一个独立的实验运行之间产生了“批处理效应”。当不同的研究小组坚持相同的方法时,这些影响可能会由于硬件、试剂或人员的轻微差异而产生。因此,对不同研究之间的未校正数据进行直接的、定量的比较是不合适的。
    几种可以减少RNA微阵列数据中的批处理效应的工具已经被开发出来。例如,替代变量分析(SVA)估计了一组推断变量(特征向量),以解释与假定的批处理效应相关的方差。然后,将这些推断出的变量纳入一个线性模型,以纠正下游的显著性检验。limma包采用了类似的线性校正来解释批处理效应。SVA和limma是线性批校正方法家族的一部分,它们使用不同种类的因子分析奇异值分解回归迄今为止最依赖的方法被称为ComBat,它使用贝叶斯方法来估计一批中每个特征的位置和尺度参数。当批效应不与真正的生物效应合并时,所有这些模型都是最有效的。此外,大多数批校正方法都做出一定的参数假设
    不幸的是,通常对许多类型的组学数据都有效的模型可能不适用于微生物组数据集。在微生物组研究中,批效应通常会弥散的并与生物信号合并。微生物组领域也在努力寻找细菌丰度分布和处理零样本。对于微生物组测序研究中的低生物量样本尤其如此,比如从建筑环境中提取的样本,种群采样不足,生物信号相对较弱,批效应可能相当大。解决这个问题的一种方法是计算给定批内的统计数据,然后使用经典的元分析技术组合p值来比较跨批次的重要特征,如Fisher和斯托夫的方法。这些meta分析技术对独立研究的批处理效应是稳健的,但与直接汇集跨研究项目的数据相比,它的统计能力和检测细微差异的能力更低。
    在这里,我们描述了一个无模型的数据归一化程序,用于控制病例-对照微生物组研究中的批处理效应,从而能够在各个研究中汇集数据。病例对照研究包括一个内置的对照样本群体(如健康受试者),可用于使病例样本(如患病受试者)正常化。对于每个特征(即细菌分类单元),病例丰度分布可以转换为等效控制丰度分布的百分位数(Fig 1).。病例样本中出现的研究特定批效应也将出现在对照样本中,通过将病例数据转换为对照分布的百分位数,这些影响得到减轻。在转换为研究内对照的百分位数后,来自具有相似病例对照定义的多个研究的周样本可以更适当地合并进行统计检验(Fig 1)。我们表明,这种方法有效地控制了微生物组病例对照研究中的批效应,我们将这种方法与汇集战斗或边缘校正数据,以及Fisher和斯托弗的结合独立p值的方法进行了比较。我们将这种方法与ComBat或者limma数据进行比较,以及与Fisher斯托弗的组合独立p值的方法进行比较。

Fig1

方法

数据

数据来源:MicrobiomeHD database 16S gene (V4)
我们的分析重点集中在5种疾病的研究上:

  1. 结直肠癌(CRC)
  2. 克罗恩病(CD)
  3. 溃疡性结肠炎(UC)
  4. 肥胖(OB)
  5. 和艰难梭菌诱导腹泻(CDI)

数据预处理

OTU-level
方法:Duvallet et al.(2017)所述,对每个V4数据集进行了质量过滤和长度裁剪,并将这些原始的、裁剪过的FASTQ文件连接到一个文件中。删除出现不超过20次序列,并将剩余的reads以97%的相似性进行聚类。使用RDP分类器分配这些OTUs分类标识符,截断值为0.5。
genus-level
   处理方法同Duvallet C (2017). 对每个研究的OTU表将每个样本除以其总reads数,转换为相对丰度,并将具有相同属级注释的所有OTUs相加,分解为属级。
在排序空间中绘制数据
Bray-Curtis distances使用Scikit-learn从相对丰度数据中计算出。
Non-metric multidimensional scaling (NMDS)两个轴的坐标的计算是基于Bray-Curtis distances使用Scikit-learn

百分位标准化

   在这个过程中,控制特征分布对自身进行百分位归一化(导致在0到100之间的均匀分布),情况特征分布是转换为其等效控制特性的百分位数。将我们的对照视为零假设是基于这样一种想法,即健康患者应该在不同的数据集上被视为相似的患者,尽管我们理解它们会由于生物和技术批效应而有所不同统计法转换为百分位数。为了避免由于存在多个零而导致的秩堆积,我们用0.0到10−9之间均匀分布的伪相对丰度替换零。由于零替换步骤,在用不同的随机抽取重新分析时,p值可能会发生轻微的变化,这可能导致非常接近显著性阈值的特征的显著性损失或获得。在每项研究中,每个OTU或属的对照分布被转换为自身的百分位数,病例分布被转换为相应对照分布的百分位数。我们已经编写了一个python脚本,它给定一个OTU表、一个用例样本id列表执行百分比规范化,以及一个控制示例id列表作为输入 (https://github.com/seangibbons/percentile_normalization),还有一个可用于运行百分位数规范化的QIIME 2(https://qiime2.org)插件(https://github.com/cduvallet/q2-perc-norm)。

combat

在运行ComBat之前,对CRC分析中的相对丰度(CRC分析中的OTUs崩溃到属级或在属级分析中的OTUs)进行对数转换,添加最小频率一半的伪相对丰度(跨越整个特征表)来替换零。然后在下游分析之前,combat校正数据从对数空间转换回来(即指数转换)。

limma

如上所述,将相对丰度(零替换为伪相对丰度,等于整个特征表中最小频率的一半)进行对数转换,然后使用removeBatchEffect 功能(默认设置)拟合一个线性模型来减去批处理效应。然后,在进行下游分析之前,将经过limma校正后的数据从对数空间转换回来(即指数转换)。

数据分析

为了计算统计意义,我们将我们的统计检验限制在至少三分之一的对照组或三分之一的病例样本中发生的OTUs/属,以减少我们的多重检验校正惩罚。我们使用Wilcoxon秩和检验,如在SciPy中实现的v0.19.0(sicipy.stats.ranksums),以确定独立样本组之间的显著差异。Wilcoxon测试是在研究内部或跨研究中进行的。为了计算跨研究的统计数据,将来自同一疾病的多个研究的归一化病例样本和对照样本合并到同一个OTU表中。此后,组合数据集被称为“池化”。p值使用本杰姆尼-霍赫伯格错误发现率(FDR)程序进行了多次检验校正,正如在StatsModels v 0.8.0 (statsmodels.
sandbox.stats.multicomp.multipletests)

计算实验

在计算显著差异之前,我们使用OTU-level数据进行了一次计算实验,该数据模拟了来自不同数据集的对照样本的池化。将一项研究的健康样本与另一项研究的健康样本以不同比例混合,然后计算病例和对照组之间OTU频率的显著差异。病例组和对照组各抽样40例。对照样本被从另一项研究中随机选择的沿着分数梯度的样本(从另一项研究中选择的0-100%的对照样本)所取代。我们使用Wilcoxon秩和检验计算了病例组和对照组之间的显著性差异,并应用了FDR校正。q值为<=0.05的OTUs被认为是显著性的。重复进行滴定实验20次,并取平均值。

结果

与滴定实验类似,我们通过OTU-level分析批校正方法如何影响假阳性率,随机选择40份对照样本(2016)研究作为人工对照和40份研究作为人工数据类型(通过20次迭代),每种数据类型(即原始、边缘化、边缘校正和作战校正)。然后,我们计算了上面概述的这些人工“病例”组和“对照组”之间的显著差异,以生成每个OTU的p值。

批次效应在 OTU-level 上解决

在这里插入图片描述
上图经百分位处理后,分散的更均匀。

图3 将一项研究的健康样本与另一项研究的健康样本以不同比例混合,然后计算病例和对照组之间OTU频率的显著差异
在这里插入图片描述
在control中增加其他样本的比例(逐渐增加),无批次处理的样本检测出来的重要OTUs数量增加。
而使用百分数方法检测出的量始终稳定。

批次效应在属级跨多种疾病上的解决

在这里插入图片描述
图4 显示使用百分数,假阳率更低
图5 在没有批处理效应的情况下,跨同一疾病的数据集汇集数据应能提高检测显著的交叉研究相关性的敏感性。
在这里插入图片描述
可以发现更多显著。
在这里插入图片描述

讨论

    当使用高通量数据生成平台时,批处理效应是不可避免的。RNA微阵列社区一直积极开发处理这些影响的工具。然而,当批效应与生物信号混淆或参数假设不适用时,这些工具并不那么有效,这在微生物组病例对照研究中经常如此。因此,需要无模型的方法来纠正跨微生物组数据集的批处理效应。幸运的是,病例对照研究可以通过其自己的对照样本进行内部标准化。病例样本中任何特定于研究的批效应都将出现在对照样本中,通过将病例数据转换为对照分布的百分位数,这些影响在不做参数假设的情况下被减弱。
    当对一项研究的病例进行测试时,, limma-corrected、ComBat-corrected数据,而不是来自另一项研究的对照数据,迅速产生了大量的虚假结果。此外,当对来自不同批次的对照人群进行比较时,非归一化数据比批量校正数据产生了更多的假阳性数量。我们的百分位数归一化方法在控制假阳性方面比limma和ComBat更有效,特别是在低丰度类群存在的情况下。
    因为汇集数据集增加了统计能力,所以即使在缺乏合适的批处理校正方法的情况下,也很容易汇集这些数据。因此,在微生物组领域中,汇集来自不同批次的非归一化数据已经成为一种常见的做法。在本文中,我们演示了为什么这种做法是非常不可取的。汇集来自多个研究的批量校正数据,我们可以检测到在给定研究中没有发现的显著差异,同时消除了在不同研究中较弱或不一致的关联。百分位数标准化结果通常会发现其他标准化方法所遗漏的病例和对照组之间的显著差异。对于CDI,百分位归一化结果与其他批校正方法确定的显著命中数量大致相同,这可能是由于与腹泻相关的生物信号非常强。如果生物信号是强大的,结果应该对所使用的分析类型是稳健的。对于UC和CD研究(IBD),百分位数归一化确定了几个limma和ComBat没有的重要属。来自IBD的limma和ComBat校正数据的显著命中数量的减少可能是由于这些研究中的异质性对照队列(即健康患者与非IBD患者),这可能平滑了炎症相关信号。这一结果强调了对不同研究中的病例和对照队列有一致定义的重要性。我们比较了百分位数归一化和池化与Fisher和斯托弗的组合独立p值的方法。斯托弗的方法与Fisher的方法相似,但包含了基于研究中样本数量的每个p值的权重。百分位归一化与斯托弗和费舍尔的方法相比,我们始终能识别出更多的显著命中点,这证实了汇集数据增加了敏感性(即减少假定的假阴性)。结合来自独立研究的p值的方法是相当稳健的,可能应该被认为是一种安全的替代汇集(即较低的假阳性机会)。然而,在我们的肥胖分析中,费舍尔和斯托弗的方法认为莫吉细菌是重要的,尽管它在各个研究中明显不一致。
    总之,我们提出了一种稳健的、无模型的程序,将微生物组病例-对照数据集中的每个特征转换为其控制分布的百分位数(图1)。应用这种方法的主要条件是:1)每批必须有相当数量的控制样本(即控制分布的密度限制了病例样本的分辨率)2)病例和对照人群(即“健康”或“患病”组的相同定义)。鉴于这些警告,百分位标准化特征可以在各个研究中合并,进行单变量统计检验(无论研究人员喜欢哪种检验——理想情况下是非参数的),从而缓解批效应问题。这种无模型程序也可以应用于其他类型的定义内部控制的组学数据集。我们发现,这个程序允许我们识别病例和对照之间的差异,这些差异往往被更保守的元分析技术所遗漏。为微阵列数据中开发的批校正方法,如limma和ComBat,可以部分减少微生物组研究中的批效应(图2-4),但如果批效应不是独立于生物信号或这些模型的参数假设是无效的,似乎掩盖了真实的模式。我们建议像limma和ComBat这样的方法对于缺乏病例组和对照组的研究是有用的。然而,当研究一致地定义了内部控制时,百分位数标准化应该是首选的批校正方法。未来的工作应集中于开发专门用于微生物组数据集的批量校正的参数模型,这可能进一步提高敏感性,以检测不同研究中细微的生物学差异。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/69443.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

javaweb跳转jsp页面时变成下载jsp文件解决方法s

目录 【背景】 【问题描述】 【代码页面】 【网页显示】 【解决方法】 --我自己的尝试&#xff1a; 1.检查jsp代码内容是否有拼写错误 2.在pom.xml里面添加依赖 3.不要在web.xml配servlet&#xff01;&#xff01;【我最终的解决方法】 【成功页面】 【总结】 【背…

好文分享(IF=18.027)|口服仿细菌鞭毛纳米纤维,可助力IBD靶向诊疗

研究背景 炎症性肠病&#xff08;inflammatory bowel disease, IBD&#xff09;是指原因不明的一组非特异性慢性胃肠道炎症性疾病&#xff0c;包括溃疡性结肠炎&#xff08;ulcerative colitis, UC&#xff09;、克罗恩病&#xff08;Crohn disease, CD&#xff09;和未定型结肠…

深度学习和人工智能之间是什么样的关系?

深度学习与人工智能概念的潜在联系&#xff0c;我们依然借助维恩图来说明&#xff0c;如图4.1所示。 1、人工智能 “人工智能”这个概念新鲜时髦但又含混模糊&#xff0c;同时包罗万象。尽管如此,我们仍尝试对 人工智能进行定义:用一台机器处理来自其周围环境的信息,然后将这些…

实用分析工具推荐 | OmicsView:交互式可视化分析多组学数据

随着NGS技术的进步&#xff0c;许多疾病中人体组织的转录谱分析变得越来越常规&#xff0c;在公共存储库中已存储了PB级的数据。目前需要计算专业知识有限的实验室科学家能够访问和挖掘这些数据&#xff0c;以了解疾病病理学、识别疾病的可靠生物标志物和干预措施的效果&#x…

肠道菌群失调与炎症性肠病的关联

谷禾健康 健康是人生命活动的根本&#xff0c;而肠道健康更是其中的重要部分。随着现代生活方式改变&#xff0c;炎症性肠病发病率增加。 炎症性肠病是一种严重影响患者生活质量的疾病。在全球范围内影响数百万人&#xff0c;发病率高&#xff0c;给卫生保健系统带来了沉重负担…

基因对疾病的影响规律--读论文

读读论文&#xff0c;用谷歌学术翻译一下&#xff0c;重要的部分做一下笔记。正文部分是翻译&#xff0c;加黑部分是个人笔记。 本次学习的论文&#xff1a;https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4412738/ 1. 前言 我们对疾病遗传基础的理解已经从对总体遗传力或家族…

百姓基因快讯:基因检测可以诊断出哪些类型的疾病?

百姓基因快讯:基因检测可以诊断出哪些类型的疾病? 能够进行DNA测验以确诊一系列心脏和血管疾病或承认发生这些疾病的危险。这些测验现在在南非可用。某些类型的癌症,铁超负荷和其他遗传性遗传疾病的集合也能够这种方法确诊出来。 心脏和血管疾病 能够进行DNA检测的特定疾病…

Gut-口腔微生物可以预测直肠癌

本文转载自“态昌基因”,已获授权。 目录 Community structure & Modularity文献解读实验设计Result 1 &#xff1a;基于UWF矩阵的群落结构差异&#xff08;PERMANOVA&#xff09;Result 2 &#xff1a;ROC诊断模型Result 3 &#xff1a;网络分析Result 4 &#xff1a; 口腔…

《黑色沙漠》游戏分析与拆解

目录 前言 游戏概述 核心循环与系统拆解 交易所 游戏流程 装备强化 强化失败保护 神器 成就 设计目的 后记 《黑色沙漠》游戏系统拆解图 前言 本文主要分析PC端《黑色沙漠》台服游戏流程中让玩家感到兴奋愉快的系统&#xff0c;分析这些系统为何吸引玩家&#xff0c;如何做到…

真实案例 | 克罗恩病患者肠道菌群检测

克罗恩病(CD)是一种慢性消化系统疾病&#xff0c;会引起消化道炎症和损害。 该疾病属于称为炎症性肠病&#xff08;IBD&#xff09;的一组病症&#xff0c;是一种慢性、免疫介导的肠道炎症疾病&#xff0c;其特征是反复发作的肠道炎症和不可逆的消化道损伤累积。 据Meta分析估计…

Day14. 用可解释机器学习方法鉴别肠结核和克罗恩病

Title: Differentiation of intestinal tuberculosis and Crohn’s disease through explainable machine learning method 用可解释机器学习方法鉴别肠结核和克罗恩病 Keywords: Intestinal tuberculosis; Crohn’s disease; Shapley Value; Machine learning 肠结核&#xf…

Research| 细菌产生的脲酶引起克罗恩病患者的肠道菌群失调

标题&#xff1a;细菌性脲酶引起克罗恩病患者的肠道菌群失调 导读 肠道菌群组成受到很多环境因素&#xff08;内外环境&#xff09;的影响&#xff0c;如饮食、抗生素使用、肠道炎症及致病菌的侵入等&#xff1b;术语’dysbiosis’指的是与宿主疾病状态相关的微生物组成发生改变…

AI产业应用再提速,AI基础软件发挥巨擎作用

5月31日&#xff0c;由中国信息通信研究院、中国人工智能产业发展联盟主办&#xff0c;北京九章云极科技有限公司联合主办的【创造智能探索未知】杭州通用人工智能论坛-AI基础软件前沿技术分论坛在杭州成功举办。大会聚焦AI基础软件前沿技术&#xff0c;挖掘人工智能基础软件大…

AI学术界无人后继?名校毕业生纷纷进厂,全是香饽饽

来源&#xff1a;新智元 AI火&#xff0c;搞AI的人就火。 这不&#xff0c;据Insider最近的一次采访报道&#xff0c;科技类公司正风卷残云般地从斯坦福、麻省理工、康奈尔大学等强校里抢人。 搞AI项目的大学生全成了香饽饽。 其实&#xff0c;不光这些专业的大学生人人追捧&am…

明面抵制,暗中布局 对于AI,马斯克的言行为何如此“割裂”?

最近&#xff0c;马斯克创建了一家叫做“X”的空壳公司&#xff0c;目标是将其打造成涵盖各方面的多功能应用集合平台&#xff0c;推特、SpaceX、特斯拉、Neuralink等公司业务都已打包加入其中。如今&#xff0c;“X”公司再添新丁——X.AI&#xff0c;即马斯克新成立的人工智能…

马斯克宣布成立xAI——引领开放人工智能时代的新纪元

马斯克宣布成立xAI——引领开放人工智能时代的新纪元 &#x1f7e2;一、前言&#x1f7e2;二、马斯克的背景与愿景&#x1f7e2;三、xAI的潜在研究方向&#x1f7e2;四、xAI面临的挑战&#x1f7e2;五、xAI的潜在影响&#x1f7e2;六、xAI与OpenAI的异同&#x1f7e2;七、对Ope…

特斯拉和OpenAI的加持,马斯克简直人生赢家

赢家已定 商人行事&#xff0c;最重要的因素之一是利益驱动。这里&#xff0c;最服“马斯克”。 以马斯克为首的特斯拉公司周日宣布&#xff0c;将在上海新建一家超级工厂&#xff0c;专门生产该公司的储能产品Megapack。签约的特斯拉储能超级工厂项目也是该公司在美国本土以…

为啥马斯克一边反对Open AI,一边又自己另搞AI

这事我过去就说过&#xff0c;我现在再老生常谈一次。 &#xff08;1&#xff09; 我过去说过一个事&#xff1a;汽车自己智能其实还不能做到真正的智能&#xff0c;必须车路人都智能了&#xff0c;智能汽车才能真正智能。 因为车路人智能&#xff0c;这本质是数字世界和数字世…

旷视张祥雨|迈向「大」和「统一」的视觉神经网络架构设计新思路

导读 大模型正在引发人工智能研究与应用范式产生重大变革&#xff0c;越来越多的顶级团队和杰出人才纷纷加入这一技术浪潮。今天我们将分享旷视科技主任研究员张祥雨的最新报告「视觉模型&#xff1a;迈向“大”和“统一”」。 张祥雨 旷视研究院主任研究员&#xff0c;Foundat…

自动驾驶行业需要大模型吗?

作者 | 十字甫 编辑 | 汽车观察者联盟 点击下方卡片&#xff0c;关注“自动驾驶之心”公众号 ADAS巨卷干货&#xff0c;即可获取 点击进入→自动驾驶之心技术交流群 后台回复【数据集下载】获取计算机视觉近30种数据集&#xff01; 当下最热门的两个话题&#xff0c;一个是人工…