构建文库
上机测序
根据不同的荧光检测不同的碱基
质量控制(质控QC)
去除低质量的序列
表达定量
统计reads数,进而得到表达矩阵
标准化
让所有样本处在同一起跑线上
主成分分析PCA
图中每个点都代表一个样本,不同颜色表示不同类别,在绿色簇中,出现了一个红色样本,这个样本就是异常样本,需要进行剔除才能进行后续的分析。
差异表达分析与富集分析
找出差异表达显著的基因,对结果进行可视化。
火山图
左侧表示下调的基因,右侧表示上调的基因。横坐标为log2,表示差异的大小。纵坐标为矫正过的P Value值,用来衡量差异的显著性。
经典的热力图和MA图。
热力图中,每一列表示一个样本,顶端显示了分组信息和重复设置。RNA-seq的每个组别一般需要设置2~3个重复,可以减少误差,这是由于RNA分子本身不稳定的性质决定的。
每一行表示一个基因,单元格中颜色深浅表示表达量的高低。
KEGG富集分析和GO富集分析
对差异表达具有显著性的所有基因做一个整体来进行富集分析。
即看看这些基因涉及到了哪些代谢通路或者生物学过程。
也可以对每个具体的通路做进一步分析。
上述所介绍的RNA为mRNA(信使RNA),还有一些非常规的RNA,
RNA-seq分析软件
TopHat and Cufflinks
HISAT, StringTie and Ballgown
原始数据质控及对比
测试数据
下载地址: ftp://ftp.ccb.jhu.edu/pub/RNAseq_protocol/chrX_data.tar.gz
该数据集仅包含了X染色体的数据,方便测试,共12个样本,大约2G左右。
有需要的话还可以下载全染色体数据。
原始数据质控
fastp
下载地址:http://opengene.org/fastp/fastp
GitHub地址:https://github.com/OpenGene/fastp
序列比对
HISTA2
基因表达定量
gtf文件
基因表达定量
String Tie
质量控制
RSeQC
差异表达分析
Read counts矩阵