单细胞scRNA-seq测序基础知识笔记

单细胞scRNA-seq测序基础知识笔记

  • scRNA-seq技术
  • scRNA-seq 分析流程
    • 数据预处理
    • 聚类
      • 标准化数据
      • 筛选有用的数据
      • 数据降维
      • 聚类 Clustering
    • 注释细胞类型
  • scRNA数据分析
  • 结尾

该笔记来源于 B站up 江湾青年

scRNA-seq技术

在这里插入图片描述

首先是如何测序,上图瓶中有很多细胞,然后让这些细胞一个一个进入右边的管道,管道的下边那个管道一个一个进入小球,理想情况下是每个小球会与一个单细胞进入同一个液滴中,这个小球等于是这个细胞的一个标记物。当然也可能会有一个液滴混入了两个细胞等情况,后边我们做数据处理的时候会把这种情况剔除。
(我也不太确定理解的对不对,但大概就是这样,最近刚入门生物信息处理,我完全没有这方面的背景知识。不过其实也无所谓,这只是大概了解下数据是怎么来的,但实际项目中只需要专注于后边的数据就行了,至于数据怎么来的其实好像我并不需要关心。 当然有写的不对的地方也请读者朋友指出,在下不胜感激!)

scRNA-seq 分析流程

在这里插入图片描述
主要流程就是,首先获取数据后要先预处理(质量控制),然后聚类和除去批次效应,最后是细胞类型的注释。

数据预处理

在这里插入图片描述
首先我们拿到的数据应该就是如上图所示那样,是一个矩阵,行是样本(细胞?)编号,列是基因编号。中间的数据比如“30” 就可以解释为 基因 “A1BG” 在第一个样本中检测到了30个(次?).

然后因为并不会在每个细胞中都能检测出某个基因,所以上图这个矩阵的大部分区域都是0,所以是一个稀疏矩阵。

在这里插入图片描述
我发现做生物信息的人好喜欢可视化呀,不过也确实有用,比如上图就是常用的提琴图(因为长的像个小提琴)可视化来分析数据。

先介绍下小提琴图怎么看,例如上图第一个提琴图,每个小点就代表一个细胞,行可能代表不同的细胞类型、组织类型、实验条件或有兴趣比较基因表达水平的任何其他分组。列代表这个细胞检测到的基因的数量。

小点背后那个红色的区域象征着细胞在这个基因数量下的细胞密度,可以看到红色区域越宽,小点越密集。

然后怎么用这个图呢?可以看出有些离群的细胞,比如第一个图最上边有几个细胞的基因数都超过3000了,这种可能就是刚才说的一个液滴里混进了俩细胞, 像这种情况我们可以设置一定的基因数量限制,seurat给出的建议是 限制在 200 ~ 2500左右,当然我们可以视实际项目的情况而定,另外也可以设置一个动态的数值,比如整体中位数加减某个数值。

聚类

请添加图片描述

标准化数据

由于测序数据可能样本间文库大小差异问题, 测序深度不一样(其实就是每次测的多少都有点差异呗)就用下图这个标准化公式,好像确实有道理,就像DL处理图像一样,把像素点也要先归一化再使用。

在这里插入图片描述

筛选有用的数据

对于拿到的scRNA数据,很多基因出现在了大多数样本中,我们应将这类基因筛除掉,因为基因差异越大才会有更多不同的信息(去除共性,保留个性),那怎么除去呢?

一个方法是计算每个基因在所有细胞中出现次数的方差,学过统计学的都懂,方差越大表示数据间的差距越大,那么这个基因个性越大,越可能有一些特殊的信息。然后我们就可以按方差从大到小来排列这些基因,然后选取方差最大的比如说前2000个高变异基因这样。

数据降维

因为一般细胞数据维度比较高,而且会有噪声,我们经常用PCA(Principal Component Analysis)给数据降维,但是只用PCA降维后的点做聚类的话,边缘会不清晰,所以一般会先用PCA降到比如说50个主成分,然后再用t-SNE或者UMAP降到二维的点再聚类,同时PCA也能顺便降噪(错了的话请留言让我知道

聚类 Clustering

如上所说,将数据降维到二维的点后,一般是用KNN或者SNN聚类,详细请移步.

另外也要考虑批次效应,比如对于不同目标采样相同部位的数据,可能可视化出来如下图的误差。

在这里插入图片描述

消除批次效应的方法如下:

在这里插入图片描述

注释细胞类型

就是等聚好细胞的类之后,可以对比下每个簇和已知的哪些基因一样,就可以得知这个细胞簇来自哪些细胞,从而为细胞添加注释。

如果是用机器自动注释的话,原理就是它会自动对比已知的基因库,从而添加注释,但缺点是我们实际用的数据可能在软件的基因库里查不到,所以可以用自动+手动的方法,自动跑个大概,然后手工检查一遍。

scRNA数据分析

在这里插入图片描述
在处理完数据后,可以用上边几种算法来处理 处理好的数据。

结尾

嗯,我觉得这个up的视频作为对我这种小白的入门视频非常好,对整个的流程有了一个大概的认识,然后再配合这个 Scanpy Tutorial 一起食用效果最佳,这个示例代码就是按照这个up主讲的顺序一步一步做的。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/250014.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

npm 和 yarn 的使用

安装 yarn npm i yarn -g查看版本 npm -v yarn --version切换 npm/yarn 的下包镜像源 // 查看当前的镜像源 npm config get registry// 切换淘宝镜像源 // 新的淘宝源,旧的淘宝源已于2022年05月31日零时起停止服务 npm config set registry https://registry.…

figure方法详解之清除图形内容

figure方法详解之清除图形内容 一 clf():二 clear():三 clear()方法和clf()方法的区别: 前言 Hello 大家好!我是甜美的江。 在数据可视化中,Matplotlib 是一个功能强大且广泛使用的库,它提供了各种方法来创建高质量的图形。在 Mat…

Ajax 详解及其使用

Ajax(Asynchronous JavaScript and XML)是一种在客户端与服务器之间进行异步通信的技术,它允许网页在不重新加载整个页面的情况下,与服务器交换数据并更新部分网页内容。Ajax 的核心是XMLHttpRequest(XHR)对…

Java的JVM学习一

一、java中的内存结构如何划分 栈和堆的区别: 栈负责处理运行,堆负债处理存储。 区域名称作用虚拟机栈用于存储正在执行的每个Java方法,以及其方法的局部变量表等。局部变量表存放了便器可知长度的各种基本数据类型,对象引用&am…

部署实战--修改jar中的文件并重新打包成jar文件

一.jar文件 JAR 文件就是 Java Archive ( Java 档案文件),它是 Java 的一种文档格式JAR 文件与 ZIP 文件唯一的区别就是在 JAR 文件的内容中,多出了一个META-INF/MANIFEST.MF 文件META-INF/MANIFEST.MF 文件在生成 JAR 文件的时候…

校园网网络规划与设计——计算机网络实践报告

W...Y的主页 😊 代码仓库分享💕 目录 一、设计目的 二、软硬件环境 三、理论基础 四、设计方案 五、网络配置步骤 六、设计过程中出现的问题及相应解决办法 八、参考资料 一、设计目的 深入理解网络工程的三层层次设计模型; 掌握网络…

虚拟机安装archlinux

1、创建虚拟机 2、安装系统4、为了方便,修改密码并使用dos窗口连接 5、磁盘分区 由于新建虚拟机时是8G,所以只建一个分区就行 6、格式化分区并挂载 7、更新镜像 rootarchiso ~ # pacman -Sy 8、 pacstrap -i /mnt base base-devel linux linux-f…

深信服技术认证“SCCA-C”划重点:深信服云计算关键技术

为帮助大家更加系统化地学习云计算知识,高效通过云计算工程师认证,深信服特推出“SCCA-C认证备考秘笈”,共十期内容。“考试重点”内容框架,帮助大家快速get重点知识。 划重点来啦 *点击图片放大展示 深信服云计算认证&#xff08…

【操作宝典】IntelliJ IDEA新建maven项目详细教程

目录 🌼1. 配置maven环境 🌼2. 创建maven项目 🌼3. 创建maven项目完整示例 a. 导入spring boot环境 b. 修改maven配置 c. 下载jar包 d. 创建Java类 🌼1. 配置maven环境 【安装指南】maven下载、安装与配置详细教程-CSDN博客…

qt之菜单栏的文字添加(图片同理)

一、需求与目的 一般常规的PC软件都会有主窗口,主窗口中都会有菜单栏和工具栏,例如我们正在使用的Qt creator: 二、详细说明 首先需要先创建mainWindow设计师类,基类直接选择默认的MainWindow即可,然后就可以进行设计了…

Unity SRP 管线【第七讲:URP LOD实现以及Reflections反射探针】

目录 一、URP LOD 组件1、LOD Group的使用2、LOD切换原理Cross Fade(淡入淡出)模式Animated Cross-Fading如果未设置Clip,并且Fade Transition Width不为0LOD物体烘培 SpeedTree 模式 二、反射探针1. 获取反射探针数据2. 环境光照明 IBL3. 反射探针(Refl…

xmind思维导图 for mac v24.01中文版

mac电脑上思维导图软件哪个好呢? xmind for mac一个功能强大、易于使用的思维导图软件,够帮助你更好地组织思维、管理信息、规划项目和解决问题,提高个人和团队的工作效率。 软件下载:xmind思维导图 for mac v24.01中文版 XMind f…

WebService的services.xml问题

WebService有多种实现方式,这里使用的是axis2 问题: 在本地开发,访问本地的http://localhost:8080/services/ims?wsdl,正常访问 但是打成jar包,不管是linux还是window启动,都访问不到,报错…

VSCode 设置代理

Open Visual Studio Code, click the settings icon in the lower left corner, and click Settings.

Selenium无法定位元素的几种解决方案(超详细整理)

🍅 视频学习:文末有免费的配套视频可观看 🍅 关注公众号【互联网杂货铺】,回复 1 ,免费获取软件测试全套资料,资料在手,涨薪更快 1、frame/iframe表单嵌套 WebDriver只能在一个页面上对元素识别…

使用pygame建立一个简单的使用键盘方向键移动的方块小游戏

import pygame import sys# 初始化pygame pygame.init()# 设置窗口大小 screen_size (640, 480) # 创建窗口 screen pygame.display.set_mode(screen_size) # 设置窗口标题 pygame.display.set_caption("使用键盘方向键移动的方块的简单小游戏")# 设置颜色 bg_colo…

山体滑坡在线安全监测预警系统(解决方案)

在近年来,随着全球气候变化的影响,山体滑坡等自然灾害频发,给人们的生命财产安全带来了严重威胁。为了有效预防和减少山体滑坡带来的危害,许多地方开始在山上安装山体滑坡在线安全监测预警系统(解决方案)。…

人工智能深度学习发展历程-纪年录

前言 为了理解模型之间的改进关系、明确深度学习的发展目标、提高自身对模型的深度理解、贯彻爱与和平的理念。总之,我做了如下表格。 时间 重大突破 模型改进 详细信息 1847 SGD 随机梯度下降 1995 SVM 支持向量机 1982 RNN 循环神经网络,…

什么是接口的幂等性,如何保证接口的幂等性?

✅作者简介:大家好,我是Leo哥,热爱Java后端开发者,一个想要与大家共同进步的男人😉😉 🍎个人主页:Leo哥的博客 💞当前专栏: Java ✨特色专栏: MyS…

贪吃蛇/链表实现(C/C++)

本篇使用C语言实现贪吃蛇小游戏,我们将其分为了三个大部分,第一个部分游戏开始GameStart,游戏运行GameRun,以及游戏结束GameRun。对于整体游戏主要思想是基于链表实现,但若仅仅只有C语言的知识还不够,我们还…