持续更新中!
QUIZ参考答案:
- Which gene is the most highly mutated gene in cancer?
TP53 - Which gene is the most highly mutated gene inCOAD/READ?
APC - Name three alignment tools.
Bowtie 2 Histat , Tophat BWA - What is the method for SNP calling that we introduced in this class?
.(BWA)-GATK - Name three advantages of this method.
做序列比对和SNP calling的算法中,表现优,现在成为金标。(1)灵敏度95% (2)特异度97% (3)准确度96%
第四课:
- What is the main difference between DNA-seq and RNA-seq alignment?
RNA-seq has junction reads - What percentage of the genome is transcribed?
90%(基因组中约 90% 的基因是转录基因。这些转录基因中只有 1-2% 编码蛋白质;大多数转录为 ncRNA。) - Name three types of ncRNAs.
tRNA、rRNA 、snRNA、piRNA、siRNA and lncRNA - Name three RNA-seq alignment tools.
bowtie tophat 2 、 HISAT 或 STAR - What are the main functions of lncRNAs?
第6课:
第7课:
复习资料:
2020.12.29 第16周课 单细胞测序 2
假时间轨迹:①monocle ②Velocyto ③Palantir (从1个时间点的数据模拟出成熟体系的过程)
1.monocle(基于表达量expression) 时间树,进行降纬分析,建立发育路径,
·利用真实数据进行验证软件功能是可靠的。
·monocle2 预测肺部上皮细胞分化命运:(可以预测与发育分支密切相关的基因集)利用免疫刺激树突细胞分化的基因knockout进行验证(基因是已知的)。
Go term分析:从基因集到基因集功能
Monocle的pros和cons:
2.Velocyto(基于splicing)`
·mRNA成熟度:验证实验SCP细胞向chromaffin cells的分化过程
·小鼠海马区:(细胞分群,进行细胞图谱构建):不同的发育轨迹由不同的转录因子调控
Velocyto的pros和cons:
优点:①从RNA成熟度的角度出发预测发育的起点和终点;②对多分支路径的预测比较好;
缺点:①对测序质量有一定要求,最好是全长测 ②路径的预测是基于tSNE或者UMAP的降维结果,需要质量是较高的(细胞群的相连)
3.Palantir·基于熵增大原理:
发育潜能很大,但变化幅度(熵)是较小的,而分化后,发育潜能小,变化幅度熵是较大的。
适合于诸如研究胚胎细胞的分化 ·验证方法:早期人类造血干细胞
Palantir的pros和cons:
Pros: ①从发育可能性的熵值出发,估计发育起点和终点 ②仅需要表达量信息 (需要很多样本)
Cons:①对原本就高无序性的样本,如肿瘤可能不适用 ②路径的展示方法比较依赖于降维方法
假时间轨迹:算法横向比较
判断指标:①分叉树的结构的正确性②分叉支点的正确性(细胞是否位于正确的结点上)③分叉的顺序④分化过程中重要的基因
合成数据 进行评估
插值与降噪:①Magic ②Saver ③DCA ④WEDGE (原因:细胞分群的稀疏,只有5%-10%的数据能被捕捉)
单细胞数据分析中的科学问题:
①稀疏矩阵(采用插值与降噪 解决) ②调控关系 (scATAC-seq解决)
③RNA-蛋白表达差异(RNA被翻译的次数不同) ④空间转录组(采用整合分析 解决)发育过程的空间位置信息
整合分析及原因
插值与降噪
1.MAGIC(细胞与细胞之间的关联,构建关联矩阵,关联度很高的基因表达量相互为依据)
(依赖对于邻居cell的确定)
2.SAVER(深度学习模型,负二项分布,利用偏移的负二项分布 挪移以重新获取基因表达量)
(假设基因表达符合负二项分布,理论与实践是近似的)
3.DCA(使用深度学习回归表达量均值和离散度)
拟合分析
4.WEDGE(对表达量矩阵中的零元和非零元分别做不同权重的非负矩阵分解) qulab
非零元:基因表达量的确很低
零元:由于实验原因,噪音基因表达信息未get,进行非权重分解 进行分群质量恢复的提高
用途:发现精细细胞亚型() 细胞层次降维
单细胞ATAC-seq分析:
前边提到的SIMIR 也可以用于验证 表达基因片段的上游是否存在一些motif
scATAC-Seq技术的开发:由斯坦福大学Howard Chang 和Greenleaf实验室联合开发
科学问题:scATAC-seq数据过于稀疏(>95%丢失),细胞分群无法达到scATAC RNA-seq一样的精度
1.ChromVAR:group peaks by motifs
peak的开放位点上游的motif进行堆积富集
用途:①细胞分化 路径的确立(造血干细胞 HSC的分群)②细胞聚类clustering ③假时间轨迹:细胞发育路径
ChromVAR优缺点:
优点:①从motif/TF分析容易定义每个亚群的功能 ②可以发现细胞发育的路径
缺点:①分群效果较差(将motif进行堆积,忽略了很多信息)②使用的motif都(必须)是已知的 ③只考虑开放位点上游调控的关系(忽略了开放位点下游网络)
2.Cicero(group peak by genes)
认为基因的开放性(转录起始位点)周围与附近的峰认为也与之相关,能得到顺式开放型(下游网络)
Cicero的优缺点
优点:①揭示基因转录区域附近的调控因子 ②从DNA开放程度预测RNA表达量
缺点:①分群效果较差 ②仅考虑近端的调控因子 ③仅考虑下游调控关系
3.cisTopic:group peaks by topics
topic(影响开放位点差异型的组合)降纬,能够凝练成细胞和topic的矩阵 - 集群
ARI越高,细胞分群可信度越高 利用不同的表达topic(区分细胞亚群)
cisTopic优缺点: (一个topic可能包含了很多功能类型的细胞,因此)
优点:①细胞分群的效果较好 ②每个亚群的特征清晰
缺点:①每个特征(topic)的生物学功能比较模糊 ②每个topic内DNA开放片段之间的关联不清楚。
4.APEC:group peaks by pattern qulab
Peak的开放位点的Pattern - 细胞 和 pattern group 矩阵
缺点:有批次效应
用途:对单细胞数分群存在优势 构建单细胞发育路径(发育轨迹构建)
多组学整合:seurat novoSpaRc
1.seurat
Mutual 相互之间寻找neighbor 将不同 的数据整合在一起 用了cicero
空间转录组:将很少的scRNA RNA转录组信息 投影 到整体的空间转录组,在空间转录组得到更多的转录信息。
2.novoSpaRc
假设表达量模式相近的细胞在空间上也是相近的。