DESeq2:检测差异表达基因

DESeq2的适用性

分析来自RNA-seq的计数数据,基因任务是检测差异表达基因。
也适用于其他分析:ChIP-Seq、HiC、shRNA筛选。

快速开始

dds = DESeqDataFromMatrix(countData = cts,colData = colData,design = ~batch + condition)dds = DESeq(dds)
resultsNames(dds)  #lists the coefficients
res = results(dds, contrast=c("condition","treated","untreated"))
res = lfcShrink(dds,coef = "condition_trt_vs_untrt",type = "apeglm")

输入数据

  • 输入数据需要归一化计数吗
    不需要 输入矩阵的值为非标准计数或测序读数即可,DESeq2模型会对文库大小进行校正。

  • cts和colData的格式
    cts列名为SampleName,行名为Gene。
    colData列记录Sample的分组信息(不限一列),行名为SampleName。

  • 预过滤
    若Gene在所用Samples中的计数小于10则过滤掉。
    keep = rowSums(counts(dds)) >= 10
    dds = dds[keep,]

  • 因子水平
    通过设置factor的参考水平来告诉DESeq2函数与哪个水平进行比较。

1. dds$condtion = factor(dds$condition,levels = c("untreated","treated"))
2. dds$condtion = relevel(dds$condtion,ref = "untreated")

差异表达分析

  • results函数
    results(dds)生成结果表。

  • lfcShrink函数
    logFoldChange缩小有助于基因的可视化和比较。可指定apeglm方法将dds对象传递给lfcShrink来缩小。
    lfcShrink(dds,coef = "condition_treated_vs_untreated",type = "apeglm")

  • P值和调整后的P值
    按P值对结果表进行排序。
    使用summary(res)总结差异分析结果。
    有多少个调整p值小于0.1?sum(res$padj < 0.1,na.rm = TRUE)
    使用results函数设置padj cutoff results(dds,alpha = 0.05)]

  • 什么时候能将P值设为NA

  1. gene在所有样本中的计数均为0。
  2. 某行包含一个极端计数异常的样本。
  • 多因素设置
    colData矩阵描述分组分组。
    可对dds对象使用colData函数查看分组因子水平。
    多因素设置在design参数增加比较因素。

DESeq2可视化

  • MA plot
    图中x轴为baseMean,y轴为logFoldChange,若padj<0.1点标为红色。
plotMA(res,ylim = c(-2,2))缩小LFC可消除low readcount基因中与LFC变化相关的噪声。
resLFC = lfcShrink(res,coef = "condition_treated_vs_untreated",type = "apeglm")
plotMA(resLFC,ylim = c(-2,2)) 

可使用功能识别通过单击图来交互来检测单个基因行数:
identify(res$baseMean,res$log2FoldChange)

  • PlotCounts
    对单个基因在各组中的读数进行可视化。计数经归一化。
    plotCounts(dds,gene = which.min(res$padj),intgroup = "condition",returnData = False)
    在这里插入图片描述
    将returnData设置为TRUE,使用ggplot2绘制plotCounts。
d = plotCounts(dds,gene = which.min(res$padj),intgroup = "condition",returnData = TRUE)
ggplot(d,aes(x = condition,y = count)) +geom_point(position = position_jitter(w = 0.1,h = 0)) +scale_y_log10()

数据转换和可视化

  • 计数数据转换
    变换的目的是消除方差对均值的依赖性(低均值,高方差)。在转换之后,具有相同均值的基因没有完全相同的标准差,但是整个实验范围内的趋势趋于平缓。
    VST:方差稳定变换。大样本推荐选择。
    rlog:正规对数。

  • 盲散估计
    VST和rlog函数有一个blind参数。当下游分析时将blind设置为FALSE。

  • 提取转换后的值

vsd = vst(dds,blind = FALSE)
rld = rlog(dds,blind = FALSE)
assay(vsd)
assay(rld)

数据质量评估

  • 计数矩阵热图
library(pheatmap)
select = order(rowMeans(counts(dds,normalized = TRUE)),decreasing = TRUE)[1:20]
df = as.data.frame(colData(dds)[,c("condtion","type")])
ntd <- normTransform(dds)  #this gives log2(n+1)
pheatmap(assay(ntd)[select,],annotation_col = df,cluster_rows = FALSE,cluster_cols = FALSE,show_rownames = FALSE)
  • 样本及样本间的相关性
    获得样本到样本的距离
    sampleDist = dist(t(assay(vsd)))
    定义距离矩阵,行名为分组信息,列名为空
sampleDistMatrix = as.matrix(sampleDist)
rownames(sampleDistMatrix) = paste(vsd$condition,vsd$type,sep='_')
colnames(sampleDistMatrix) = NULL
pheatmap(sampleDistMatrix,clustering_distance_rows = sampleDist,clustering_distance_cols = sampleDist)
  • PCA主成分图
    plotPCA(vsd,intgroup = c("condition","type"))

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/32786.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ToxinPred – 多肽毒性预测、突变设计和理化性质预测

多肽是由多个氨基酸通过肽键连接形成的化合物&#xff0c;是生物体中普遍存在的小分子活性物质&#xff0c;它们作为激素、神经递质、生长因子等参与多种生命活动。近年来&#xff0c;人们对多肽的研究也日渐深入&#xff0c;例如抗菌肽&#xff08;Antibacterial peptides&…

单细胞测序流程(五)t-sne聚类分析和寻找marker基因

系列文章目录 单细胞测序流程&#xff08;一&#xff09;简介与数据下载 单细胞测序流程&#xff08;二&#xff09;数据整理 单细胞测序流程&#xff08;三&#xff09;质控和数据过滤——Seurat包分析&#xff0c;小提琴图和基因离差散点图 单细胞测序流程&#xff08;四…

突变检测数据分析专题

欢迎关注”生信修炼手册”! 随着NGS测序技术的发展&#xff0c;以WES, WGS, 靶向捕获测序为主的高通量数据分析广泛应用&#xff0c;本文整理了以SNP位点为主的突变检测数据分析资料。 首先是snp calling, 就不得不提gatk及其配套的最佳实践 外显子测序简介GATK4基本概念整理GA…

新冠病毒分型和突变分析(SARS-CoV2_ARTIC_Nanopore)

新冠病毒分型和突变分析&#xff08;SARS-CoV2_ARTIC_Nanopore&#xff09; 一. 本文使用Artic官方提供环境对Nanopore minion SARS-Cov-2测序数据&#xff0c;对新冠病毒突变及分型鉴定 二. 概览&#xff1a;按照惯例&#xff0c;先上一张概览图&#xff0c;浏览下分析流程步…

新版TCGA的甲基化数据分析

文章目录 加载数据甲基化差异分析甲基化可视化甲基化旭日图 TCGAbiolinks可以进行甲基化分析&#xff0c;但是功能不如 ChAMP强大&#xff0c;甲基化分析还是首推 ChAMP包。 不过为了了解TCGAbiolinks包&#xff0c;里面关于甲基化分析的部分还是要学习一下。 主要是甲基化差…

转录组-差异基因热图

top_de_exp<-dplyr::slice(de_result2,1:20)%>%#挑取差异最大的select(-c(2:8))%>%#去掉2-8列column_to_rownames(var"id")#列变行 de_result2为上一篇转录组-火山图得到的数据&#xff01; #第一种做图方式 library(pheatmap) pheatmap(log10(top_de_ex…

【bioinfo】二代测序在肿瘤突变检测中的错误来源和解决策略

文章目录 文献摘要NGS工作流程中的错误来源1&#xff09;FFPE样本&#xff1a;2&#xff09;DNA打断&#xff1a;3&#xff09;PCR扩增和聚合酶保真度&#xff1a;4&#xff09;测序平台&#xff1a;5&#xff09;数据分析&#xff1a; NGS工作流错误解决策略使用UID不使用UID …

Cell | 深度突变学习预测SARS-CoV-2受体结合域组合突变对ACE2结合和抗体逃逸的影响...

本文介绍一篇来自于苏黎世联邦理工学院的Joseph M. Taft在Cell上发表的工作——《Deep Mutational Learning Predicts ACE2 Binding and Antibody Escape to Combinatorial Mutations in the SARS-CoV-2 Receptor Binding Domain》。 SARS-CoV-2的持续变异以及对疫苗和中和抗体…

DNA 8. 癌症的突变异质性及寻找新的癌症驱动基因(MutSigCV)

点击关注&#xff0c;桓峰基因 桓峰基因 生物信息分析&#xff0c;SCI文章撰写及生物信息基础知识学习&#xff1a;R语言学习&#xff0c;perl基础编程&#xff0c;linux系统命令&#xff0c;Python遇见更好的你 120篇原创内容 公众号 桓峰基因公众号推出基于基因组变异数…

生物(一)ctDNA突变检测应用于肿瘤早期筛查

原创&#xff1a;yongzhe 提到cfDNA应用于肿瘤早期筛查&#xff0c;是一个充满希望和挑战的问题。目前的热门方向是甲基化&#xff0c;相当多一部分公司以此为研发方向&#xff0c;还包括ctDNA突变检测&#xff0c;cnv检测&#xff0c;CTC&#xff0c;外泌体检测等都在探索研究…

利用GATK4.1 mutect2寻找体细胞突变(SNV和INDEL)

今天梳理一下最最最最(最X100)常用的mutect2体细胞变异分析流程。主要用来分析肿瘤配对样本,寻找体细胞突变比如SNV和INDEL。官网上已经有了详细的英文版教程。 软件版本:GATK4.1.1.0 官网教程:https://gatk.broadinstitute.org/hc/en-us/articles/360035894731-Somatic…

GATK4 最佳实践-生殖细胞突变的检测与识别

欢迎关注"生信修炼手册"&#xff01; GATK4 对于体细胞突变和生殖细胞突变的检测分别给出了对应的pipeline: Germline SNPsIndelsSomatic SNVs Indels 本篇主要关注生殖细胞突变的分析流程Germline SNPsIndels。示意图如下&#xff1a; 图中红色方框部分的从Analysi…

GATK4最佳实践-体细胞突变的检测与识别

欢迎关注"生信修炼手册"&#xff01; 分析体细胞突变时&#xff0c;通常采用tumor_vs_nomal 的实验设计。在检测时&#xff0c;由于同时会检测出生殖细胞突变和体细胞突变&#xff0c;需要做的就是去除生殖细胞突变位点&#xff0c;那么剩下的就是体细胞突变位点了&a…

TCGA差异表达分析|2022.5.1更新

作者&#xff1a;Squirrelity 2022-07-18 补充说明 最近R更新了&#xff0c;很多包都用不了&#xff0c;如果遇到报错或者是运行不了有可能是因为版本问题。 一、加载对应的R包 这里用到十三个包&#xff08;距离上次更新之后又新增了不少方法/包&#xff09;&#xff1a; lib…

病理基因突变综述

颜锐, 梁智勇, 李锦涛, 任菲. 基于深度学习和H&E染色病理图像的肿瘤相关指标预测研究综述[J]. 计算机科学, 2022, 49(2): 69-82. YAN Rui, LIANG Zhi-yong, LI Jin-tao, REN Fei. Predicting Tumor-related Indicators Based on Deep Learning and H&E Stained Patholo…

maftools|TCGA肿瘤突变数据的汇总,分析和可视化

之前介绍了使用maftools | 从头开始绘制发表级oncoplot&#xff08;瀑布图&#xff09; R-maftools包绘制组学突变结果&#xff08;MAF&#xff09;的oncoplot或者叫“瀑布图”&#xff0c;以及一些细节的更改和注释。 本文继续介绍maftools对于MAF文件的其他应用&#xff0c;为…

生信-记一次NCBI-R语言-淋巴癌突变与未突变基因的差异分析

关键词&#xff1a;基因芯片、R、筛选、预处理、差异分析 NCBI-淋巴癌突变与未突变基因的差异分析 PS&#xff1a;好久没分享生信了&#xff0c;这是一年前做的一次生信task&#xff08;准确来说是2018年11月了&#xff09;&#xff0c;这里分享一下给大家&#xff0c;有助于一…

TCGA 亚型突变负荷代码

#1、准备文件/数据并加载相应的包 #1.1下载并加载相应的包&#xff0c;有就直接加载&#xff0c;没有就下载后再加载。 install.packages("pacman") library(pacman) p_load(TCGAbiolinks,DT,tidyverse) BiocManager::install("TCGAbiolinks") library(t…

四、肿瘤全基因组学体细胞点突变特征(The repertoire of mutational signatures in human cancer)

全文链接 一、肿瘤突变特征&#xff1a;碱基置换及插入、缺失突变 单碱基置换&#xff08;49种特征类型&#xff0c;single-base-substitution&#xff0c;SBS&#xff09; 双碱基置换&#xff08;11种特征类型&#xff0c;doublet-base-substitution&#xff0c;DBS&#xf…

TCGA_联合GTEx分析2_查看批次效应

在 TCGA_联合GTEx分析1_得到表达矩阵.tpm_老实人谢耳朵的博客-CSDN博客 中&#xff0c;获取了TCGA和GTEx中样本的表达矩阵数据&#xff0c;数据格式均为tpm。本文对二者进行合并后&#xff0c;通过PCA分析、绘制内参箱线图等方法&#xff0c;查看是否存在批次效应。 关于批次效…