单细胞RNA测序(scRNA-seq) 理解Seurat对象存储信息含义和基本操作

Seurat

单细胞测序技术是在单个细胞水平上,对基因组、转录组和表观基因组水平进行分析测序技术。bulk RNA-seq获得的是组织或器官等大量细胞中表达信号的均值,无法获取细胞之间的差异信息(即丢失了细胞的异质性), 而单细胞测序技术可以很好的弥补bulk RNA-seq这一不足,即获取混合样本中细胞的异质性信息

文章 单细胞RNA测序(scRNA-seq)Seurat分析流程入门 中涉及Seurat对象的构建、访问和数据提取等操作,本文将对Seurat对象的结构进行深入解读。

1. 单细胞分析中Seurat对象的结构

Seurat R包,主要用于分析单细胞RNA测序数据。Seurat包实现了单细胞RNAseq数据分析的主要步骤,包括质控、归一化、可视化、聚类、差异表达等。Seurat对象用于存储单细胞RNA-seq元数据和分析结果,

Seurat 5.0官网: https://satijalab.org/seurat/

2. Seurat 包的主要功能

  1. 从原始gene表达矩阵构建AnnotatedChip对象,或从已有格式如SingleCellExperiment对象进行转换;

  2. 用于质控的功能,如过滤低质量细胞,检测高变基因等;

  3. 用于数据标准化的方法,如缩放,归一化等;

  4. 用于数据降维和可视化的工具,如PCA,tSNE,UMAP等;

  5. 用于数据聚类的方法,如Louvain算法,K-means等;

  6. 用于差异表达分析的功能;

  7. 支持进行GO/KEGG富集分析,蛋白质相互作用网络分析等;

  8. 提供丰富的绘图功能,如特征作图,等高线图,热图等;

  9. 支持对象的导出与共享, 便于重复分析或与他人交流。

3. Seurat 对象包含的主要域(slots)

Seurat 对象(实际称为AnnotatedChip对象)包含多个域(slots), 存储不同类型的信息,主要关注前4个slots,理解其含义。
##################################################

  1. assays: 存储数据集的表达矩阵及相关信息

这里只有一个RNA域,对应RNA表达数据。其包含:

  • counts:原始表达计数矩阵,行为基因,列为细胞

  • data: 与counts相同,用于兼容以前的seurat版本。 数据进行了VST变换后,存储在data域,而非scale_data域。

  • scale.data: 标准化后的表达矩阵

  • key:表达矩阵的标识符,此处为”rna_“。

  • assay.orig:原始表达矩阵,此处为空。

  • var_features:变异基因信息。如果进行筛选,例如选定了2000个变异基因,存储在var_features域

  • meta.features:包含每个特征的统计量,如平均值、方差、标准化方差等,用于过滤低变异特征。

  • misc:杂项,此处为空。

##################################################

  1. meta_data: 存储细胞元数据,如细胞类型,count数等

meta_data域包含更丰富的信息,如percent.mito,聚类标签等,包含具体信息如下:

  • orig.ident:样品的原始ID,此处全部为”SeuratProject”。

  • nCount_RNA:每个细胞的UMI计数,在RNA表达矩阵中

  • nFeature_RNA:每个细胞检测到的特征数,在RNA表达矩阵中

  • percent.mito:每个细胞线粒体特征的百分比,用于过滤低质量细胞

  • RNA_snn_res.0.5:构建RNA_snn网络图时resolution为0.5时的聚类结果。

  • seurat_clusters:Seurat的FindClusters命令产生的聚类结果,resolution同为0.5。

这个域汇总了样品和表达数据的基本信息,以及两种不同参数下的聚类结果。

##################################################

  1. active.assay: 设置当前使用的表达矩阵, 这里是RNA

  2. active.ident: 细胞ID,对应列名

##################################################

  1. graphs:网络图信息,用于存储PCA,tSNE等结果

  2. reductions:用于存储降维结果,如PCA,UMAP的模型对象

  3. images:存储绘图 Output,用于再现分析过程

  4. project.name:项目名称

  5. version:seurat对象的版本信息

##################################################

  1. commands:存储构建seurat对象使用的所有命令,以支持再现分析过程

每个命令都包含name、time.stamp 时间戳、assay.used、call.string和params等域,记录命令名称、运行时间、使用的表达矩阵、命令语句和参数等信息, 具体如下:

  • ScaleData:标准化表达矩阵。

  • NormalizeData:对表达矩阵进行归一化。

  • FindVariableFeatures:找到高变异特征。

  • RunPCA:进行PCA分析。

  • RunTSNE:进行tSNE分析。

  • RunUMAP:进行UMAP分析。

  • JackStraw:进行置换检验。

  • ScoreJackStraw:给置换检验结果打分。

  • FindNeighbors:构建邻居网络图。

  • FindClusters:进行聚类分析。

  1. tools:存储分析中使用的其他软件包版本信息

4. Seurat 对象基本操作

4.1 访问 Seurat 对象的域slot

Seurat 对象中assays用于存储表达矩阵, counts存储原始数据(稀疏矩阵),data存储Normalize()之后的数据,scale.data存储ScaleData()缩放后的数据,SCT存储标准化之后的数据, meta.data存储细胞注释信息(或称为临床信息), active.assay存储默认的矩阵名, active.ident存储默认的细胞注释信息(或称为临床信息)。

library(Seurat)# 读取10X PBMC数据
pbmc.data <- Read10X(data.dir = "./pmbc")
sobj <- CreateSeuratObject(counts = pbmc.data)###### 使用@或$访问第1层域slot ###### 
# 获取原始表达矩阵第一层slot 
counts <- sobj@assays# 访问元数据
meta <- sobj@meta.data###### 使用@ + $访问第3层域slot ###### 
# 提取counts域,获得原始表达矩阵
counts <- sobj$RNA@counts###### 使用[[ ]] 访问域, 允许域名包含特殊字符(如.),和$作用类似###### 
counts <- sobj[["nCount_RNA"]]
counts <- sobj[["RNA"]]###### GetAssayData获取表达矩阵 ###### 
# 一个Seurat对象可存储多个表达矩阵
counts.matrix <- as.matrix(GetAssayData(object = sobj@assays$RNA, layer = "counts"))[1:10, 1:10]

slotNames():列出所有域的名称。
VariableFeatures():提取高变异特征。

4.2 数据提取和转换

提取数据并转换为data.frame, 可使用@ / $ / [[ ]]对Seurat 对象取值

# 提取counts数据矩阵
expression_matrix <- sobj[["RNA"]]@counts# 将矩阵转换为data.frame
expression_df <- as.data.frame(expression_matrix)# 提取细胞元数据矩阵
expression_matrix <- sobj@meta.data

4.3 FetchData()函数提取数据

FetchData()函数可提取meta.datareductions数据框的数据, slot参数只能为 “data”, “scale.data”, “counts

FetchData(object = sobj, vars = 'PC_1',slot = "counts")FetchData(object = sobj, vars = 'nCount_RNA')FetchData(object = sobj, vars = 'groups')FetchData(object = sobj, vars = 'PPBP')FetchData(object = sobj, vars = c("tSNE_1","tSNE_2"),slot = "counts")FetchData(object = sobj, vars = c("tSNE_1","tSNE_2"),slot = "data")FetchData(object = sobj, vars = c("tSNE_1","tSNE_2"),slot = "scale.data")

4.4 subset()函数提取数据

使用subset()根据meta.data中因素对Seurat对象进行子集的选择(或过滤)。

# 提取MT-开头的基因的meta.data至percent.mito列中
sobj <- PercentageFeatureSet(sobj, pattern = "^MT-", col.name = "percent.mito")# 提取每个细胞中检测特征数 大于200且小于2500,线粒体含量小于5%的数据
sobj <- subset(sobj, subset = nFeature_RNA > 200 & nFeature_RNA < 2500 & percent.mito < 5)

4.5 为Seurat对象添加域

add.data <- data.frame(gene = c("gene1", "gene2", "gene3"),value = c(1.2, 3.4, 5.6))# 将my_data添加到Seurat对象的misc slot中
sobj@misc$add_data <- add.data# 查看misc slot中的my_data
sobj@misc$add_data 
##    gene value
## 1 gene1   1.2
## 2 gene2   3.4
## 3 gene3   5.6

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/347833.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【文献阅读】一种多波束阵列重构导航抗干扰算法

引言 针对导航信号在近地表的信号十分微弱、抗干扰能力差的问题&#xff0c;文章提出了自适应波束形成技术。 自适应波束形成技术可以分为调零抗干扰算法和多波束抗干扰算法。 调零抗干扰算法主要应用功率倒置技术&#xff0c;充分利用导航信号功率低于环境噪声功率的特点&…

ssm汽车在线销售系统

摘 要 21世纪的今天&#xff0c;随着社会的不断发展与进步&#xff0c;人们对于信息科学化的认识&#xff0c;已由低层次向高层次发展&#xff0c;由原来的感性认识向理性认识提高&#xff0c;管理工作的重要性已逐渐被人们所认识&#xff0c;科学化的管理&#xff0c;使信息存…

Spring Security实现用户认证四:使用JWT与Redis实现无状态认证

Spring Security实现用户认证四&#xff1a;使用JWT与Redis实现无状态认证 1 什么是无状态认证&#xff1f;2 什么是JWT&#xff1f;2.1 需要注意的事项2.2 JWT构成 3 Spring Security JWT实现无状态认证3.1 创建一个Spring Boot项目3.1.1 依赖3.1.2 Main3.1.3 application.ym…

PGFed: Personalize Each Client’s Global Objective for Federated Learning

ICCV-2023, 文章提出显式隐式的概念,作者通过实验发现显式比隐式的效果好,显式方式通过直接与多个客户的经验风险互动来更新模型,并用泰勒展开式降为 O ( N ) O(N) O(N)通讯成本。 文章地址:arxiv code: 作者开源 贡献 1.我们发现个性化 FL 算法的显式性赋予了其更强的…

【Linux】模拟实现一个简单的日志系统

&#x1f466;个人主页&#xff1a;Weraphael ✍&#x1f3fb;作者简介&#xff1a;目前正在学习c和算法 ✈️专栏&#xff1a;Linux &#x1f40b; 希望大家多多支持&#xff0c;咱一起进步&#xff01;&#x1f601; 如果文章有啥瑕疵&#xff0c;希望大佬指点一二 如果文章对…

算法体系-20 第二十节暴力递归到动态规划

前言 动态规划模型从尝试暴力递归到傻缓存到动态规划 四种模型和体系班两种模型一共六种模型 0.1 从左往右模型 0.2 范围讨论模型范围尝试模型 &#xff08;这种模型特别在乎讨论开头如何如何 结尾如何如何&#xff09; 玩家博弈问题&#xff0c;玩家玩纸牌只能那左或者右 0.3 …

浅析Vue3 实战笔记(一)

本文是结合实践中和学习技术文章总结出来的笔记(个人使用),如有雷同纯属正常((✿◠‿◠)) 喜欢的话点个赞,谢谢! 有问题欢迎指正!! 前面已经讲了基本的Vue生命周期和入门知识,本篇开始使用Vite构建一个demo 1. 创建项目 1.1. 初始化项目 使用Vite初始化项目 yarn create v…

若依RuoYi-Vue分离版—免登录直接访问

若依RuoYi-Vue分离版—免登录直接访问 如何不登录直接访问前端&#xff1a;后端:方法1&#xff1a;在SecurityConfig.java中设置httpSecurity配置匿名访问方法2&#xff1a;在对应的方法或类上面使用Anonymous注解。 如何不登录直接访问 官网有说明&#xff1a;如何不登录直接…

Swift 序列(Sequence)排序面面俱到 - 从过去到现在(二)

概览 在上篇 Swift 序列(Sequence)排序面面俱到 - 从过去到现在(一)博文中,我们讨论了 Swift 语言中序列和集合元素排序的一些基本知识,我们还给出了以自定义类型中任意属性排序的“康庄大道”。 不过在实际的撸码场景中,我们往往需要的是“多属性”同时参与到排序的考…

279. 完全平方数

解法一、回溯法&#xff1a; class Solution {public int numSquares(int n) {return numSquaresHepler(n);}public int numSquaresHepler(int n){if(n 0) return 0;int count Integer.MAX_VALUE;for(int i 1; i * i < n; i){count Math.min(count,numSquaresHepler(n …

elementPlus 图标不显示 属性模式不显示

问题&#xff1a; elementPlus 属性模式图标不显示 <el-input placeholder"请输入用户名" :suffix-icon"Avatar"> //这个图标不显示 之前在main.ts里全局引入了icons-vue。这里的script里也没引入。 解决&#xff1a; 在当前的script中重新引入a…

【Linux】进程_1

文章目录 五、进程1. 冯---诺依曼体系结构2. 操作系统 未完待续 五、进程 1. 冯—诺依曼体系结构 我们常见的计算机和不常见的计算机&#xff0c;如服务器&#xff0c;大部分都遵守冯诺依曼体系。 冯—诺依曼体系结构由&#xff1a;输入设备、输出设备和中央处理器&#xff…

【C++】——继承(详解)

一 继承的定义和概念 1.1 继承的定义 继承(inheritance)机制是面向对象程序设计使代码可以复用的最重要的手段&#xff0c;它允许程序员在保 持原有类特性的基础上进行扩展&#xff0c;增加功能&#xff0c;这样产生新的类&#xff0c;称派生类&#xff0c;被继承的称为基类…

CentOS7下快速升级至OpenSSH9.7p2安全版本

一、CentOS7服务器上编译生成OpenSSH9.3p2的RPM包 1、编译打包的shell脚本来源于该项目 https://github.com/boypt/openssh-rpms解压zip项目包 unzip openssh-rpms-main.zip -d /opt cd /opt/openssh-rpms-main/ vim pullsrc.sh 修改第23行为source ./version.env 2、sh pull…

C语言,struct 结构体、union共用体的使用

//状态字节&#xff0c;根据数据定义几个标志&#xff0c;标志位依据联合体内部结构体进行变量定义 //目的&#xff0c;节省内存空间&#xff0c;省去特定字节 struct STATDATA {union{unsigned char stat;struct {unsigned stat0:1;unsigned stat1:1;unsigned stat2:1;unsign…

[线程与网络] Java虚拟机常考面试题(线程与网络完结)

&#x1f338;个人主页:https://blog.csdn.net/2301_80050796?spm1000.2115.3001.5343 &#x1f3f5;️热门专栏:&#x1f355; Collection与数据结构 (92平均质量分)https://blog.csdn.net/2301_80050796/category_12621348.html?spm1001.2014.3001.5482 &#x1f9c0;线程与…

Atlassian企业日技术分享:AI在ITSM中的创新实践与应用、Jira服务管理平台AI功能介绍

2024年5月17日&#xff0c;Atlassian中国合作伙伴企业日活动在上海成功举办。活动以“AI协同 创未来——如何利用人工智能提升团队协作&#xff0c;加速产品交付”为主题&#xff0c;深入探讨了AI技术在团队协作与产品交付中的创新应用与实践&#xff0c;吸引了众多业内专家、企…

光伏项目管理——数字化改革

随着全球对可再生能源的迫切需求以及环保意识的日益增强&#xff0c;光伏产业作为清洁能源的重要组成部分&#xff0c;正迎来快速发展的黄金时期。然而&#xff0c;传统的光伏项目管理方式已逐渐无法满足现代化、高效化的需求&#xff0c;数字化改革成为了行业发展的必然趋势。…

DeepSORT(目标跟踪算法)中卡尔曼滤波器中的更新

DeepSORT&#xff08;目标跟踪算法&#xff09;中卡尔曼滤波器中的更新 flyfish 说协方差先说期望 在协方差的定义中&#xff0c;符号 E \mathbb{E} E 表示期望值&#xff08;Expectation&#xff09;。期望值是随机变量的平均值或均值&#xff0c;表示在大量试验中随机变量…

什么是 URL 过滤?是如何保障浏览体验的?

互联网是一个无边无际的空间&#xff0c;几乎包含了你能想象到的一切。不幸的是&#xff0c;这意味着也存在着从不合适到非常危险的网站。这就是 URL 过滤可以发挥作用的地方。 一、URL 过滤的含义 我们希望您已经熟悉 URL&#xff08;统一资源定位器&#xff09;&#xff0c;…