肿瘤微环境中单细胞的泛癌分类

scRNA-seq可以揭示肿瘤微环境 (TME) 内细胞异质性的宝贵见解,scATOMIC是一种用于恶性和非恶性细胞的注释工具。在 300,000 个癌症、免疫和基质细胞上训练了 scATOMIC,为 19 种常见癌症定义了一个泛癌症参考,scATOMIC优于当前的分类方法。在 225 个肿瘤活检样本上广泛确认了 scATOMIC 的准确性,这些样本涵盖了 350,000 多个癌症和各种 TME 细胞。最后,展示了 scATOMIC 的实际意义,它可以准确地将乳腺癌子集划分为临床相关的亚型,并预测转移性癌症中肿瘤的原发性。

来自:Pan-cancer classification of single cells in the tumour microenvironment, Nature Communications, 2023

目录

  • 背景概述
    • scATOMIC
  • 跨内部和外部数据集的性能评估和验证
  • scATOMIC 注释可提高肿瘤活检的细胞分辨率
  • 扩展核心 scATOMIC 层次结构以用于新应用
  • scATOMIC 可识别转移性癌症的肿瘤起源

背景概述

肿瘤微环境 (TME) 非常复杂。TME 内的各种免疫细胞和基质细胞与癌细胞相互作用,调节血管生成、肿瘤增殖、侵袭和转移等过程。scRNA-seq特别适合解构复杂系统,因为它们为样本中的每个细胞提供转录组信息,从而能够研究反映不同细胞类型及其功能状态的细微变化。

细胞类型注释可以说是从 scRNA-seq 实验中获得生物学见解的最关键步骤,可以手动执行或使用自动分类器。鉴于手动注释的繁琐,人们开始转向使用自动方法,最近对可用 scRNA 工具的普查描述了 100 多个分类器。到目前为止,大多数自动分类器都专注于对血液或来自其他特殊组织的细胞亚群进行分类,因此在解读不同人类癌症的复杂 TME 方面能力有限。事实上,使用单细胞转录组学预测癌症类型并区分癌症和相关正常组织细胞,同时对大量免疫细胞和基质进行分类,并不是一项简单的任务。在 TME 的背景下,细胞类型预测受到两个挑战:

  • 同一组织的癌症之间高度患者间肿瘤细胞异质性
  • 相关但不同的特殊免疫细胞之间低转录组变异。

目前,scRNA-seq 数据中恶性细胞的识别标准依赖于拷贝数变异 (CNV) 推断。然而,这些方法无法提供有关癌症起源组织的明确信息。此外,CNV 推断需要存在遗传不稳定的细胞,如果测序样本中缺少大量独特的正常细胞参考,其准确性可能会受到影响。仅依靠推断的 CNV 的存在来注释恶性细胞可能会导致假阴性细胞。因此,scRNA-seq 分析肿瘤生态系统的一个限制是,没有通用方法可以有效、详细地分类非恶性 TME 细胞类型和亚型以及癌细胞。

显然,一种自动的Pan-cancer分类方案应该捕获更多正常细胞亚型和临床相关的癌症亚型,有望更好地了解癌症个体发生和各种肿瘤组织与其微环境的分子相互作用。在这项工作中,作者展示了scATOMIC,这是一种全面的Pan-cancer TME 细胞类型分类器。

scATOMIC

大量公开的单细胞转录组数据集将使我们能够开发出一种高度准确和全面的癌症、血液和基质细胞分类器。为了定义一个泛癌参考,作者查询了癌症患者数据,并增加了两个额外的综合数据源,其中包含转录组独立的细胞身份识别。这些包括:

  • 代表 19 种常见癌症类型的癌细胞系的 scRNA-seq 和多种外周血细胞的 CITE-seq 数据集(蛋白质组学和转录组学)。
  • 基质细胞的 scRNA-seq 是从多个肿瘤和正常组织来源收集的。

总体而言,scATOMIC 的训练参考数据集包含 301,662 个细胞。

获得一组准确的判别性特征对于成功分类至关重要。尽管如此,与非恶性细胞类型有关的显著差异表达基因 (DEG) 通常在功能上不同的其他相关细胞中表达(补充图1)。另一方面,恶性细胞之间的患者间异质性已被反复观察到,不同患者形成独特的簇(补充图 2)。为了改进细胞身份预测,作者开发了RHC-REP。为了开发这种方法,作者构建了一个泛癌症 TME 细胞层次结构,其中每个父节点代表一组相关细胞,每个终端节点代表一个感兴趣的单细胞类。总体而言,作者训练了 24 个随机森林模型,对应于父节点的总数(图1a)。对于每个模型,作者选择了 DEG,将每种细胞类型与嵌套在同一父级中的所有其他终端类区分开来。然后,RHC-REP 将优先考虑对所查询的细胞类型具有最高特异性的特征(图1b)。

fig1

  • 补充图1:相关非恶性细胞类型之间的共享转录程序。在 UMAP 上可视化 CD8+ T 细胞、CD4+ T 细胞和自然杀伤细胞。颜色为 a.细胞类型、b.细胞亚型、c.IL7R 表达和 d.GZMB 表达。IL7R 表达水平将 CD4+ T 细胞与 NK 细胞区分开来,但并非与所有 CD8+ 细胞区分开来。在 CD4+ 和 CD8+ 幼稚细胞中均观察到高 IL7R 表达。同样,GZMB 表达水平将 NK 细胞与 CD4+ T 细胞区分开来,但并非与所有 CD8 细胞区分开来。在具有细胞毒功能的 NK 和 CD8 细胞中均观察到高 GZMB 表达。

fig2

  • 补充图2:17 个肺癌活检样本的UMAP表明患者特异性恶性细胞具有高度异质性。相比之下,非恶性细胞的转录组异质性较小。

fig1ab

  • 图1a 泛癌肿瘤微环境的层次结构。泛癌肿瘤微环境中的细胞层次结构被组织成流程图,细胞类型分辨率不断提高。父节点代表广泛的分类分支,终端节点代表感兴趣的专门细胞类别。
  • 图1b 为每个父节点 (n = 24) 训练分类分支。收集显着区分一种细胞类型与所有其他细胞类型的基因。保留对每个终端类别具有更高特异性的差异表达基因 (DEG)。在过滤的、文库大小标准化计数矩阵上训练随机森林分类器,以得出一个模型,该模型提供与父节点内为每个终端类别投票的树比例相对应的预测分数。热图顶部的颜色表示不同的细胞类型。

在每个分类任务中,每个细胞都会收到一个预测分数 (PS) 向量,该向量对应于父节点中每个终端类别的树投票百分比(图 1c)。然后,该细胞乘以 PS 矩阵用于计算中间组分数 (IGS),随后将细胞链接到层次结构中的下一个父节点(图 1d)。在每个分类任务中,从模型中查询的所有细胞获得的 IGS 分布用于自动定义预测阈值。然后,每个细胞由其下一个相关模型查询,该模型由一组更具辨别力的特征和更少的潜在终端类别定义(图 1e)。未通过 IGS 阈值的细胞将被赋予其先前的父分类,并被禁止进一步进行子分类。

fig1c

  • 图1c 来自查询肿瘤活检的基因表达计数矩阵被输入到第一个 scATOMIC 分类分支模型中,输出逐个细胞的预测分数矩阵。

fig1d

  • 图1d 分别将所有血液和非血液细胞亚型的预测分数 (PS) 相加,以得出将单个细胞与其某个指定父节点类别相关联的中间组分数 (IGS) 分布。

fig1e

  • 图1e 细胞在其下一个父节点的对应模型中被迭代询问,直到获得最终分类。如果细胞的 IGS 低于置信度截止值,则会发生广泛分类。在此示例中,细胞 10 被细分,直到得出最终 B 细胞指定。

鉴于在癌症生物样本中可以找到与癌症组织来源相同的非恶性细胞(例如,肺活检中的正常肺泡细胞),作者在 scATOMIC 中嵌入了癌症特征评分和细胞分化模块。使用已建立的转录程序评分方法,在通过 scATOMIC 预测的癌症类型注释的细胞中评估癌症类型特异性上调和下调程序(图 1f)。即在RF分类出的cancer cell上用现有评分方法再细分一次,去除非恶性细胞

fig1f

  • 图1f:通过对大量 RNA-seq 衍生的区分基因表达程序进行评分来区分癌症和组织特异性非恶性细胞。scATOMIC 自动将群体 2 注释为癌细胞,将群体 1 注释为非恶性细胞。

跨内部和外部数据集的性能评估和验证

为了评估 scATOMIC 的性能,作者首先使用训练参考数据集进行了5 fold交叉验证,同时保持5 fold中细胞类型的比例相等。scATOMIC 在所有测试的细胞类型中实现了从 0.90 到 0.99 的 F1 分数,这意味着在泛癌 TME 环境中对细胞广度进行分类的准确性很高。进一步使用外部黑色素瘤数据集测试了 scATOMIC 的性能,再次发现 F1 分数没有显著差异。

接下来,目标是对 scATOMIC 性能进行全面的外部、独立于训练的验证。为了构建具有高置信度细胞注释的验证数据集,作者从原发性肿瘤活检和血液样本中挖掘了公开可用的 scRNA-seq 数据。总体而言,用于验证的精选集包含来自 225 个原发性活检的 228,460 个癌症、82,976 个基质和 46,090 个血细胞,这些活检涵盖 13 种癌症类型。重要的是,这些ground truth集包括由 CNV 支持的癌细胞,以及通过 CITE-seq 由细胞表面蛋白标记支持的具有转录组独立身份的免疫细胞。与从内部验证获得的结果类似,在这个独立验证过程中,scATOMIC 的中位 F1 得分为 0.99。

scATOMIC 注释可提高肿瘤活检的细胞分辨率

为了进一步证明 scATOMIC 在注释多细胞 TME 方面的优势,作者分析了几个数据集,包括肺癌的 scRNA-seq。该数据集的原始注释由作者使用 SingleR 及其默认参考结合细胞类型特征和典型marker基因确定。scATOMIC 分辨了 NK 细胞和 T 细胞,并将后者进一步细分为细粒度亚型,包括 T 调节细胞、幼稚 CD4 + T 细胞、CD4 + T 滤泡辅助细胞、效应/记忆 CD4+、效应/记忆 CD8 + T 细胞和耗竭 CD8 + T 细胞(图 4a)。
fig4a

  • 图4a:桑基图将原始细胞类型注释与更高分辨率的 scATOMIC 注释进行比较。scATOMIC 将肺癌细胞与正常肺组织细胞区分开来。此外,scATOMIC 可识别血细胞的亚型。

在其他近期不同癌症类型的数据集中也观察到 TME 细胞类型的细胞分辨率增加,包括膀胱癌、乳腺癌、肝癌、卵巢癌、前列腺癌 和皮肤癌(图 4b-g)。总的来说,这项分析证明了 scATOMIC 的核心分层算法能够高分辨率解析细胞身份、标记细粒度 T 细胞状态、识别稀有细胞类型、避免错误地对未知细胞进行分类以及确定癌症类型。
fig4b-g

  • 图4b-g:scATOMIC 可识别常见癌症的癌细胞,并在其他细胞类型中提供相对更高的分辨率。

扩展核心 scATOMIC 层次结构以用于新应用

通过利用 RHC-REP,可以轻松部署新的 scRNA-seq 数据来训练层次结构任何终端分支的扩展。作者提出扩展乳腺癌分类节点将提供利用模块化的示例(图 5a)。

两个相当大的 scRNA-seq 乳腺癌图谱用于训练和独立测试分类模型,该模型将乳腺癌细胞分解为主要的 ER+、HER2+ 和三阴性乳腺癌 (TN) 组织学亚型。作者将 scATOMIC 应用于训练独立的验证数据集,该数据集包含 38 个涵盖 ER+、HER2+ 和 TN 乳腺癌的肿瘤,以及 2 个 HER2+/ER+ 双阳性肿瘤,由于缺乏数据,scATOMIC 乳腺模式的当前参考中未包含该类。免疫染色确定 scATOMIC 对 38 例独立于训练的乳腺癌活检样本中的 37 例进行了正确的亚型分析 (图 5b)。在两例 HER2 + /ER + 双阳性样本中,scATOMIC 分配了 HER2 + 和 ER + 细胞的混合注释 (图 5b)。
fig5a

  • 图5a:scATOMIC 核心层次中的晚期乳腺癌细胞节点得到扩展,将乳腺癌细分为主要的 ER+、HER2+ 和三阴性组织学亚型。

fig5b

  • 图5b:在外部队列中验证 scATOMIC 预测。饼图反映了根据 scATOMIC 分类的肿瘤内乳腺亚型异质性,针对每个报告的组织学亚型。具有相似细胞注释分布的患者样本一起显示在单个饼图中。

观察到不同程度的肿瘤细胞,其中 6 个活检样本(15%)预测的正常乳腺癌细胞多于癌细胞。在另一个报告为 ERlow 的肿瘤中(即免疫染色显示 ER+ 癌细胞 <10%),scATOMIC 鉴定出 8% ER+ 乳腺癌细胞(图 5c)。值得注意的是,scATOMIC 将这些 ER+ 细胞鉴定为恶性,与组织学报告一致,但 CNV 反映出的是蓝色的ER+与灰色的normal一致,从而误解亚型分类的判断(图 5d)。此示例突出显示了癌细胞的一个独特亚群,如果严格依赖 CNV 推断,这些亚群可能会被误解为正常组织,因此建议采用综合方法以获得最佳结果。总体而言,这些数据展示了 scATOMIC 的实用和模块化框架,可进一步将原发性肿瘤类别细分为其临床相关亚型

fig5c

  • 图5c:来自 ER low 肿瘤(患者:ER-AH0319)的乳腺细胞在 UMAP 上可视化并按 scATOMIC 预测着色。
  • 图5d:ER-low 肿瘤细胞的推断拷贝数变异 (CNV) 谱。红色代表推断的增益,而蓝色代表推断的基因组区域损失。y 轴根据 scATOMIC 预测着色。

scATOMIC 可识别转移性癌症的肿瘤起源

鉴于现有的单细胞注释工具并非旨在提供有关癌细胞起源组织的信息,作者应用 scATOMIC 预测肿瘤起源。作者整理了来自不同解剖部位的乳腺癌、肾癌、肺癌、卵巢癌和皮肤癌的 62 个转移性活检样本数据集。在 62 个样本中的 52 个(83.9%)中,scATOMIC 正确预测了原发组织(图 6),这些细胞可能经历了与转移相关的转录变化。在 1 个肾脏和 2 个肺样本(另外 4.9%)中,scATOMIC 未给出终端分类,但将预测重点放在正确的中间类别上。在 2 个通量较低的黑色素瘤 scRNA-seq 中,仅报告了 5 个和 6 个癌细胞,但 scATOMIC 没有发现任何癌细胞。作者认为这些是错误的预测。在其余 5 个收到错误终端分类的样本中,有 4 个的预测癌症类型和报告的原发性癌症属于同一直接父节点的相关癌症。例如,混合浆液性/透明细胞卵巢癌被预测为子宫内膜癌。总体而言,这些结果表明,使用单细胞转录组学准确检测转移性癌症的起源组织是可行的,并且 scATOMIC 可以帮助识别人类肿瘤中的癌症原发部位。
fig6

  • 图6:scATOMIC 应用于 62 例乳腺癌、肾癌、肺癌、卵巢癌和皮肤癌的转移性肿瘤。转移部位包括脑、肺、胃肠道、肝、肾上腺、淋巴结、腹部和腹腔。每对点代表真正的肿瘤起源和预测的起源。水平连接线代表正确预测,而对角线代表错误预测。真正的肿瘤起源按报告的癌症亚型着色。圆点代表可信注释,而三角点代表低可信注释。多色点代表接受中间 scATOMIC 注释的肿瘤。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/481001.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

《算法导论》英文版前言To the teacher第3段研习录:题海战术有没有?

【英文版】 We have included 957 exercises and 158 problems. Each section ends with exercises, and each chapter ends with problems. The exercises are generally short questions that test basic mastery of the material. Some are simple self-check thought exer…

docker使用(镜像、容器)

docker基础使用 文章目录 前言1.镜像操作1.1命令介绍1.2.案例实操1.2.1查找镜像1.2.2下载镜像1.2.3查看当前镜像 2.容器操作2.1命令2.1.1容器创建与启动2.1.2. 容器查看2.1.3. 容器操作2.1.4. 容器删除2.1.5. 容器日志2.1.6. 容器内文件操作2.1.7. 容器内命令执行2.1.8. 其他常…

自编码器(二)

自编码器到底好在哪里&#xff1f;当我们把一个高维度的图片&#xff0c;变成一个低维度的向量的时候&#xff0c;到 底带来什么样的帮助呢&#xff1f;我们来设想一下&#xff0c;自编码器这件事情它要做的&#xff0c;是把一张图片压缩 又还原回来&#xff0c;但是还原这件事…

springboot旅游管理系统的设计与实现

springboot旅游管理系统的设计与实现 如需源码pc端&#x1f449;&#x1f449;&#x1f449;资源 手机端&#x1f449;&#x1f449;&#x1f449;资源 摘 要 信息化社会内需要与之针对性的信息获取途径&#xff0c;但是途径的扩展基本上为人们所努力的方向&#xff0c;由于…

SQL进阶——子查询与视图

在SQL中&#xff0c;子查询和视图是两种强大的技术&#xff0c;用于处理复杂的查询、提高代码的重用性以及优化查询性能。子查询允许开发者在查询中嵌套其他查询&#xff0c;而视图则是对复杂查询的封装&#xff0c;可以简化开发工作并提高代码的可维护性。 本章将深入探讨如何…

【组成原理】计算机硬件设计——ALU

2bit 复用器 A B C D 为该元件的4个输入口&#xff0c;假设 输入口都是 4位&#xff0c;故 数据输入范围 是 0~ 16. Sel是2位选择开关&#xff0c;可以标识 0&#xff0c;1&#xff0c;2&#xff0c;3&#xff0c;这样可以实现控制4个输入的选择。 元件外观&#xff1a; 二、…

基于MFC实现的银行模拟系统

基于MFC实现的银行模拟系统 1.软硬件运行环境 1.1 项目研究背景与意义 为了能给学生熟悉银行业务系统提供真实的操作环境, 使学生在掌握理论知识的同时熟悉银行业务的实际操作过程&#xff0c;改变其知识结构&#xff0c;培养商业银行真正需要的实用人才&#xff0c;增强学生…

【LeetCode每日一题】——189.轮转数组

文章目录 一【题目类别】二【题目难度】三【题目编号】四【题目描述】五【题目示例】六【题目提示】七【题目进阶】八【解题思路】九【时空频度】十【代码实现】十一【提交结果】 一【题目类别】 数组 二【题目难度】 中等 三【题目编号】 189.轮转数组 四【题目描述】 …

滑动窗口篇——如行云流水般的高效解法与智能之道(3)

前言&#xff1a; 上篇我们介绍了滑动窗口的进阶练习&#xff0c;本篇难度继续升级&#xff0c;同样结合具体题目&#xff0c;帮助大家进一步掌握和运用滑动窗口。 一. 找到字符串中所有字母异位词 题目链接&#xff1a;438. 找到字符串中所有字母异位词 - 力扣&#xff08;L…

uniapp首页样式,实现菜单导航结构

实现菜单导航结构 1.导入字体图标库需要的文件 2.修改引用路径iconfont.css 3.导入到App.vue中 <style>import url(./static/font/iconfont.css); </style>导航区域代码 VUE代码 <template><view class"home"><!-- 导航区域 --><…

Rust SQLx CLI 同步迁移数据库

上文我们介绍了SQLx及SQLite&#xff0c;并介绍了如何使用代码同步迁移数据库。本文介绍Sqlx cli 命令行工具&#xff0c;介绍如何安装、使用&#xff0c;利用其提供的命令实现数据表同步迁移。Java生态中有flyway, sqlx cli 功能类似&#xff0c;利用命令行工具可以和其他语言…

【天地图】HTML页面实现车辆轨迹、起始点标记和轨迹打点的完整功能

目录 一、功能演示 二、完整代码 三、参考文档 一、功能演示 运行以后完整的效果如下&#xff1a; 点击开始&#xff0c;小车会沿着轨迹进行移动&#xff0c;点击轨迹点会显示经纬度和时间&#xff1a; 二、完整代码 废话不多说&#xff0c;直接给完整代码&#xff0c;替换…

鸿蒙学习自由流转与分布式运行环境-价值与架构定义(1)

文章目录 价值与架构定义1、价值2、架构定义 随着个人设备数量越来越多&#xff0c;跨多个设备间的交互将成为常态。基于传统 OS 开发跨设备交互的应用程序时&#xff0c;需要解决设备发现、设备认证、设备连接、数据同步等技术难题&#xff0c;不但开发成本高&#xff0c;还存…

如何启动 Docker 服务:全面指南

如何启动 Docker 服务:全面指南 一、Linux 系统(以 Ubuntu 为例)二、Windows 系统(以 Docker Desktop 为例)三、macOS 系统(以 Docker Desktop for Mac 为例)四、故障排查五、总结Docker,作为一种轻量级的虚拟化技术,已经成为开发者和运维人员不可或缺的工具。它允许用…

Mac启动服务慢问题解决,InetAddress.getLocalHost().getHostAddress()慢问题。

项目启动5分钟&#xff0c;很明显有问题。像网上其他的提高jvm参数就不说了&#xff0c;应该不是这个问题&#xff0c;也就快一点。 首先找到自己的电脑名称&#xff08;用命令行也行&#xff0c;只要能找到自己电脑名称就行&#xff0c;这里直接在共享里看&#xff09;。 复制…

实时美颜直播APP开发指南:美颜sdk与美颜api的应用实践

本篇文章&#xff0c;小编将探讨如何在直播APP中实现实时美颜功能&#xff0c;重点介绍美颜sdk与api的应用实践。 一、什么是实时美颜技术&#xff1f; 实时美颜技术&#xff0c;通常通过图像处理算法&#xff0c;基于主播或用户的实时视频流&#xff0c;进行面部特征的优化。…

【纯原生js】原生实现h5落地页面中的单选组件按钮及功能

h5端的按钮系统自带的一般都很丑&#xff0c;需要我们进行二次美化&#xff0c;比如单选按钮复选框之类的&#xff0c;那怎么对其进行html和css的改造&#xff1f; 实现效果 实现代码 <section id"tags"><h2>给景区添加标题</h2><label><…

win10系统安装docker-desktop

1、开启Hyper-v ———————————————— Hyper-V 是微软提供的一种虚拟化技术&#xff0c;它允许你在同一台物理计算机上运行多个独立的操作系统实例。这种技术主要用于开发、测试、以及服务器虚拟化等领域。 —————————————————————— &#…

阿里云人工智能平台(PAI)免费使用教程

文章目录 注册新建实例交互式建模(DSW)注册 注册阿里云账号进行支付宝验证 新建实例 选择资源信息和环境信息,填写实例名称 资源类型需要选择公共资源,才能使用资源包进行抵扣。目前每月送250计算时。1 * NVIDIA A10 8 vCPU 30 GiB 1 * 24 GiB1 * NVIDIA V100 8 vCPU 32 Gi…

TongRDS分布式内存数据缓存中间件

命令 优势 支持高达10亿级的数据缓冲&#xff0c;内存优化管理&#xff0c;避免GC性能劣化。 高并发系统设计&#xff0c;可充分利用多CPU资源实现并行处理。 数据采用key-value多索引方式存储&#xff0c;字段类型和长度可配置。 支持多台服务并行运行&#xff0c;服务之间可互…