IntegrAO整合不完整数据以实现患者分层

高通量组学分析技术的进步极大地推动了癌症患者的分层研究。然而,多组学整合中的数据不完整问题带来了巨大挑战,因为像样本排除或插补这样的传统方法常常会损害真实生物多样性。此外,将具有部分组学数据的新患者准确分类到现有亚型这一关键任务也常被忽视。为了解决这些问题,作者提出了 “整合任意组学”(Integrate Any Omics,简称IntegrAO),这是一个用于整合不完整多组学数据和对新样本进行分类的无监督框架。IntegrAO首先将来自不同组学来源的部分重叠的患者graph进行合并,然后利用图神经网络生成统一的患者嵌入表示。作者对涉及六种组学模式的五个癌症队列进行的系统评估表明,IntegrAO对缺失数据具有很强的鲁棒性,并且在对具有部分特征的新样本进行分类时准确性较高。AML案例进一步证实了它在不完整数据集中揭示生物学和临床异质性的能力。

来自:Moving towards genome-wide data integration for patient stratification with Integrate Any Omics, Nature Machine Intelligence, 2025

目录

  • 背景概述
    • IntegrAO
    • 组学数据预处理
    • 聚类数选择
    • 基因表达反卷积
  • 案例:识别AML亚型

背景概述

精准医学根据患者独特的基因图谱量身定制个性化治疗方案,已被公认为癌症治疗的未来发展方向。该领域正朝着收集多模态数据的方向发展,以应对癌症固有的异质性问题。癌症的异质性表现为多样的基因、转录组和表型变异。近年来,高通量技术的进步使得多维分析成为可能。像癌症基因组图谱(TCGA) 这样的项目,已经在不同分子层面产生并收集了数千份肿瘤样本。随着单细胞分析技术的兴起,尤其是scRNA-seq,通过突出不同细胞类型的独特表达谱,加深了人们对肿瘤微环境的理解。因此,基于基因、转录组和表型数据的患者分层,已成为精准医学的核心内容,为定制化治疗的开发提供了指导。

整合多组学数据能够更全面地理解癌症。在过去十年中,出现了许多方法,包括基于网络的方法、基于矩阵分解的方法、贝叶斯聚类技术以及先进的深度学习方法,这些方法在疾病亚型分类方面取得了成功。然而,这些方法通常需要完整的多组学数据,由于实验和资金限制,完整数据很少能获取到。例如,所有患者的基因分型数据可能是完整的,但基因表达或甲基化数据却常常不完整。分析这种不完整的组学数据具有挑战性。排除含有缺失组学数据的样本会减小样本量,而填补缺失值可能会引入偏差和不确定性。这突出了对能够直接处理不完整数据集而不丢弃有价值信息的计算方法的迫切需求。解决缺失数据问题的先进整合方法可分为两类:联合插补joint imputation或优化掩蔽optimization masking。尽管联合插补方法在建模框架内预测缺失值,但它们往往会引入潜在偏差,并且需要大量样本。优化掩蔽技术处理如患者graph这样的已处理数据,在优化过程中通过掩蔽缺失数据使部分样本得以参与分析,但面临着计算复杂度增加、随着图数量增多可能出现聚类不准确以及需要至少一个共同数据视图等挑战。

尽管存在这些局限性,多组学整合仍能提供有价值的诊断和预后信息。然而,将新患者准确分类到预定义的亚型中仍然是一个重大挑战,尤其是在处理这些患者的不完整组学数据时。许多患者只有部分数据集。开发能够从任何可用数据中推断出准确亚型的方法,对于推进个性化医疗以及充分实现多组学整合在医学中的潜力至关重要

IntegrAO是一个用于整合不完整多组学数据并对新样本进行分类的无监督框架。IntegrAO首先使用部分图融合机制,整合来自不同组学来源的重叠患者图,在保留数据保真度的同时尽量减少噪声。然后,应用GNN提取患者嵌入并将其对齐到统一空间,即使数据不完整,也能够准确地对新患者进行分类。为了展示IntegrAO的应用,首先通过模拟组学数据集表明,IntegrAO在各种数据缺失的情况下都能实现稳健的整合。AML的案例研究进一步说明了IntegrAO从不完整的多组学数据中全面了解异质性的能力。对涵盖六种组学模式的五个癌症队列进行的系统评估强调了IntegrAO对缺失数据的鲁棒性,以及它在整合部分数据和对新样本进行分类方面的有效性。

IntegrAO

IntegrAO是一个用于整合存在部分重叠的多组学数据集的无监督框架。如图1所示,IntegrAO有两个关键功能:传导整合-transductive integration和归纳预测-inductive prediction。

转导整合包含两个核心步骤:(1)融合部分重叠的患者图;(2)跨组学模态提取和对齐患者嵌入(图1a)。在步骤(1)中,IntegrAO通过为每种组学数据模态构建患者图来处理存在数据缺失类型的样本,其中节点代表患者,加权边表示成对相似性。然后,IntegrAO迭代地融合这些图,利用共享样本作为桥梁在组学间传播信息。组学之间的重叠程度决定了信息融合的程度,共享患者越多,融合效果越好。由于不同组学模态之间的患者重叠情况不同,IntegrAO对图进行两两融合以最大化信息流。步骤(1)为每种组学数据模态生成一个融合图,该融合图整合了其他组学的信息。步骤(2)从每种组学数据模态中提取低维患者嵌入,并将其映射到一个统一的空间。融合后的网络和组学数据通过特定组学的图神经网络(GNN)编码器和一个共享投影头来生成嵌入。在训练过程中,模型确保嵌入保留输入图的相似性结构,并对齐不同组学中的患者嵌入。最终通过对不同组学的嵌入取平均值来获得最终嵌入,以构建综合图。

归纳预测将无监督框架扩展到有监督任务中(图1b)。例如,从综合图中识别出癌症亚型后,IntegrAO可以进一步微调,利用任何可用的组学数据预测新患者的亚型。预测模型在无监督的IntegrAO框架基础上增加一个多层感知器(MLP)头,该MLP头处理平均后的患者嵌入以进行准确预测。预训练模型提供初始权重,而MLP头用随机权重初始化,以确保强大的特征提取能力并适应有监督任务。微调平衡了嵌入学习和亚型分类的目标。这种双重优化使模型能够以一种与模态无关的方式支持亚型预测。在推理过程中,新患者的组学数据被融合到现有图中,微调后的模型根据融合图以及相应的组学特征预测他们的癌症亚型。
fig1

  • 图1a,步骤(1)以细胞组成、mRNA表达、microRNA表达、DNA甲基化和拷贝数变异数据集为例,用于构建每种组学的患者图。患者数据无需涵盖所有组学类型。随后,融合阶段利用从其他图中收集的信息对每个图进行迭代优化,最终为每种组学生成统一的图。步骤(2)将这些统一的图及其相应的组学特征输入到特定组学的图神经网络(GNN)中,以学习患者嵌入。这些低维患者嵌入经过优化,以保留各个统一图中的相似性信息,并尽量减少同一患者在不同组学中的嵌入差异。步骤(3)通过对特定组学的嵌入求平均得到最终嵌入,并将其应用于构建最终的综合患者图。
  • 图1b:将IntegrAO转换为预测框架。利用综合图,可以识别患者亚型,并以此对训练好的IntegrAO模型进行微调。经过微调的IntegrAO模型能够对具有任何可用组学数据的新患者进行分类。在推理过程中,首先将新患者与现有患者的图进行融合。然后,将融合后的图及相关组学特征输入到微调后的IntegrAO模型中,从而预测患者亚型。

组学数据预处理

模拟癌症组学数据集
利用InterSim CRAN软件包来模拟癌症组学数据集,共生成了500个样本,这些样本分布在15个大小各异的簇中,反映了现实的临床场景。对于超参数,我们设置“effect = 0.1”和“p.DMP = 0.1”,其余超参数保持默认值。

TCGA癌症数据集
对于癌症数据集,利用了来自癌症基因组图谱(TCGA)中五种肿瘤类型的多组学数据,包括乳腺癌(BRCA)、结肠癌(COAD)、皮肤黑色素瘤(SKCM)、肾透明细胞癌(KIRC)和肺腺癌(LUAD)。具体而言,作者直接从cBioPortal获取mRNA表达、DNA甲基化、拷贝数变异和蛋白质表达数据。MicroRNA表达数据则单独从Broad研究所的Firehose源数据中检索。作者还为每位患者获取了相关的临床信息。在分析之前,进行了严格的预处理,包括去除异常值、通过k近邻算法(kNN)插补缺失值,以及通过标准化缩放将数据归一化到均值为0、标准差为1。任何数据类型缺失数据超过20%的患者,以及在患者中缺失值超过20%的特征均被排除。此外,作者从每种数据模态中选取标准差最大的前2000个特征。对于总特征数少于2000的模态,则不进行特征筛选。

AML癌症数据集
为构建AML数据集,作者合并了来自TCGA、BEAT-AML和Leucegene队列的原始数据。对每个数据集的基因表达数据使用方差稳定变换进行归一化处理。然后使用“一次一个细胞”(one-cell-at-a-time)算法校正批次效应,该算法还将特征降维到30维空间。对于细胞组成,作者按照另一项研究的方法,利用bulk基因表达反卷积技术,并应用“一次一个细胞”算法进行后续的特征降维。仅存在于TCGA队列中的DNA甲基化数据无需进行批次校正,根据离散度选择了2000个高变特征。最终的数据集包含812例具有细胞组成和mRNA表达数据的AML患者,以及其中308例还拥有额外DNA甲基化数据的患者子集。

聚类数选择

为确定癌症数据集的最佳聚类数,作者采用了一种特定方法。首先,在整合患者数据后,进行10 fold训练-测试分割。在每一fold中,对90%的患者嵌入应用高斯混合模型,并对剩余10%的数据计算对数似然分数。针对预定义范围内的不同聚类数重复该过程。然后,计算每个聚类数对应的对数似然分数的均值和标准差。最佳聚类数由对数似然分数决定,用于对每个聚类数对数据集的适用性进行排序。

在新患者分类实验中,对综合网络应用具有该最佳聚类数的谱聚类算法以获得聚类标签。在急性髓系白血病(AML)案例研究中,最初识别出的18个聚类经过合并生物学上相似的聚类进行优化,最终得到12个不同的AML亚型。


聚类主要应用在IntegrAO框架中的以下两个关键环节:
转导整合后确定癌症亚型数量
在转导整合完成后,为确定癌症数据集合适的聚类数量,采用了特定方法。具体是先对整合后的患者数据进行十折训练 - 测试分割,在每一折中,对90%的患者嵌入应用高斯混合模型,并在剩余10%的数据上计算对数似然分数,以此确定最佳聚类数。这一步骤是为后续准确划分癌症亚型提供基础,让模型能够基于合适的聚类数量来深入分析患者数据特征,挖掘数据中的潜在结构和模式,从而更精准地对癌症患者进行分层。

新患者分类及案例研究中确定亚型标签

  • 新患者分类:在新患者分类实验中,当确定了最佳聚类数后,会对整合后的网络应用具有该最佳聚类数的谱聚类算法,从而获得聚类标签。通过这些标签可以将新患者划分到相应的癌症亚型中,实现对新患者的准确分类。
  • 案例研究:以急性髓系白血病(AML)案例研究为例,最初识别出18个聚类,随后通过合并生物学上相似的聚类进行优化,最终确定为12个不同的AML亚型。这种聚类和亚型优化过程有助于深入理解疾病的异质性,为后续制定个性化的治疗方案提供有力依据。

基因表达反卷积

为生成用于癌症基准实验的细胞组成数据,作者利用BayesPrism对来自TCGA癌症队列的原始基因表达计数进行反卷积分析。通过BayesPrism网络门户进行分析,遵循其默认的预处理步骤。这些步骤包括过滤异常基因、选择蛋白质编码基因以及分离每种细胞类型的特征基因。提交反卷积任务时,使用该门户的默认设置。得到的矩阵详细记录了患者特异性细胞类型的比例,作为整合基准测试的细胞组成模态数据。

案例:识别AML亚型

为了阐明AML的异质性----这是一种以广泛的患者间和患者内异质性为特征的癌症,作者将IntegrAO应用于一个实际的AML数据集。最近,在AML中发现了与每位患者白血病细胞层级组成相关的新维度异质性 ,这为疾病生物学和药物反应提供了新的见解。作者试图利用IntegrAO将这一新信息与其他两种组学数据,即mRNA表达和DNA甲基化数据相结合,以获得对AML异质性前所未有的多维度认识。因此,作者将IntegrAO应用于三个AML队列,即癌症基因组图谱(TCGA)、急性髓系白血病治疗反应和生物标志物研究(BEAT-AML)以及Leucegene队列,利用了812名患者的mRNA表达和细胞层级组成数据,以及其中308名患者的甲基化谱数据。

IntegrAO确定了12种生物学上不同的AML亚型(见方法部分的 “聚类数选择”),优化了之前仅依据细胞层级所定义的分组。这些亚型在细胞组成、转录谱、甲基化和基因组改变方面呈现出明显的模式(图3a、b)。例如,“Primitive-原始型” 亚型富含原始白血病干细胞和祖细胞,“Mature-成熟型” 亚型富含单核样细胞和传统树突状细胞(cDC样细胞),而其他亚型则有不同的细胞类型富集。
fig3ab

  • 图3a:IntegrAO识别出12种具有不同层级组成、转录组特征和突变模式的亚型,保留了细致的差异。
  • 图3b:IntegrAO识别出的这12种亚型呈现出独特的DNA甲基化特征,凸显了该方法基于表观遗传变异进行区分的能力。
  • 图3c:Kaplan - Meier生存曲线显示各亚型之间存在显著的生存差异,证实了这些亚型具有不同的预后意义。维奈克拉(venetoclax)的药物反应情况凸显了各聚类间存在明显不同的反应模式。

作者进一步通过生存分析和药物敏感性分析评估了这些亚型的临床重要性。对癌症基因组图谱(TCGA)和急性髓系白血病治疗反应和生物标志物研究(BEAT- AML)联合队列绘制的 Kaplan-Meier 生存曲线显示出显著差异(图3c)。关于药物敏感性,作者使用方差分析来评估IntegrAO确定的亚型对BEAT-AML药物筛选数据集中122种抗癌药物的反应是否存在差异(图3c以药物venetoclax为例)。

作者推测,IntegrAO确定的各亚型间的生物学异质性可能反映了它们在正常造血分化过程中的不同起源。为验证这一点,利用另一项研究定义的scRNA-seq参考数据,评估了各亚型在造血分化各阶段的富集情况(图3d)。将IntegrAO确定的每个亚型的前100个基因标志物映射到该参考数据后,发现了一些对应关系,例如 “树突状细胞型” 亚型与浆细胞样和传统树突状细胞对应,“原始型(典型)” 亚型与造血干细胞对应,“成熟单核细胞型(NPM1)” 亚型与单核细胞对应。这一验证进一步证实,IntegrAO确定的亚型保留了不同的造血谱系,反映了急性髓系白血病的肿瘤间异质性。

fig3d

  • 图3d:人类造血分化单细胞转录组图谱的UMAP可视化 ,通过造血谱系富集分析验证了亚型分化情况,并突出了所捕捉到的异质性。左边是细胞类型注释,右边是IntegrAO确定的12种亚型标志物表达量。12种亚型与正常细胞分化轨迹显示了匹配关系。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/17109.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[创业之路-299]:图解金融体系结构

一、金融体系结构 1.1 概述 金融体系结构是一个国家以行政的、法律的形式和运用经济规律确定的金融系统结构,以及构成这个系统的各种类型的银行和非银行金融机构的职能作用和相互关系。以下是对金融体系结构的详细分析: 1、金融体系的构成要素 现代金…

#渗透测试#批量漏洞挖掘#致远互联AnalyticsCloud 分析云 任意文件读取

免责声明 本教程仅为合法的教学目的而准备,严禁用于任何形式的违法犯罪活动及其他商业行为,在使用本教程前,您应确保该行为符合当地的法律法规,继续阅读即表示您需自行承担所有操作的后果,如有异议,请立即停…

el-table封装一个自定义列配置表格组件(vue3开箱即用)

组件核心功能 拖拽排序(使用 vuedraggable) 显示/隐藏控制 列宽调整 列固定状态记忆 搜索过滤列 本地存储(localStorage)可改成接口保存 默认配置恢复 通过 searchText 动态过滤列。 安装拖拽依赖 npm install vuedragg…

关于qtcreator的安装过程遇到的问题和处理方法

打算开发个对windows兼容性好的软件,最终决定用c语言,后来选择了qt,发现qt有个不错的东西qt quick,界面图形效果表现的不错,还能做动画,甚至可以做成游戏。 于是打算安装这个软件,软件虽然开源…

一文通俗理解为什么需要泛型以及泛型的使用

为什么需要泛型? public static void main(String[] args) {ArrayList list new ArrayList();// 由于集合没有做任何限定,任何类型都可以给其中存放list.add("abc");list.add("def");list.add(5);Iterator it list.iterator();wh…

HtmlRAG:RAG系统中,HTML比纯文本效果更好

HtmlRAG 方法通过使用 HTML 而不是纯文本来增强 RAG 系统中的知识表示能力。通过 HTML 清洗和两步块树修剪方法,在保持关键信息的同时缩短了 HTML 文档的长度。这种方法优于现有基于纯文本的RAG的性能。 方法 其实主要看下围绕html提纯思路,将提纯后的…

KEPServerEX 中信道深入介绍

以下是 KEPServerEX 中信道(Channel) 的详细介绍,涵盖其定义、功能、配置步骤及最佳实践,帮助您快速掌握信道在数据采集中的核心作用: 一、信道(Channel)的定义 信道 是 KEPServerEX 中 连接物…

C#(Winform)通过添加AForge添加并使用系统摄像机

先展示效果 AForge介绍 AForge是一个专门为开发者和研究者基于C#框架设计的, 也是NET平台下的开源计算机视觉和人工智能库 它提供了许多常用的图像处理和视频处理算法、机器学习和神经网络模型,并且具有高效、易用、稳定等特点。 AForge主要包括: 计算机视觉与人…

迅为RK3568开发板篇OpenHarmony实操HDF驱动配置LED-LED测试

将编译好的镜像全部进行烧写,镜像在源码根目录 out/rk3568/packages/phone/images/目录下。 烧写完成之后,在调试串口查看打印日志,如下图所示: 然后打开 hdc 工具,运行测试程序,输入“led_test 1”&…

在VS2022中配置DirectX12环境,并显示显示一个窗口

1.创建空项目并配置项目: 1.打开VS2022,创建C项目中的空项目 2.新建一个Main.cpp文件 3.配置项目 将属性页的C/C项中的语言栏的符合模式设置为否 再将链接器中的系统栏的子系统设置为窗口 设置完成! 2.创建一个Windows窗口: 代码&#…

AI前端开发:蓬勃发展的机遇与挑战

人工智能(AI)领域的飞速发展,正深刻地改变着我们的生活方式,也为技术人才,特别是AI代码生成领域的专业人士,带来了前所未有的机遇。而作为AI应用与用户之间桥梁的前端开发,其重要性更是日益凸显…

DeepSeek+即梦 做AI视频

DeepSeek做AI视频 制作流程第一步:DeepSeek 生成视频脚本和分镜 第二步:生成分镜图片绘画提示词第三步:生成分镜图片第四步:使用可灵 AI 工具,将生成的图片转成视频。第五步:剪映成短视频 DeepSeek 真的强&…

数组练习(深入理解、实践数组)

1.练习1&#xff1a;多个字符从两端移动&#xff0c;向中间汇聚 编写代码&#xff0c;演示多个字符从两端移动&#xff0c;向中间汇聚 #define _CRT_SECURE_NO_WARNINGS 1 #include<stdio.h> #include<string.h> int main() {//解题思路&#xff1a;//根据题意再…

学习threejs,使用HemisphereLight半球光

&#x1f468;‍⚕️ 主页&#xff1a; gis分享者 &#x1f468;‍⚕️ 感谢各位大佬 点赞&#x1f44d; 收藏⭐ 留言&#x1f4dd; 加关注✅! &#x1f468;‍⚕️ 收录于专栏&#xff1a;threejs gis工程师 文章目录 一、&#x1f340;前言1.1 ☘️THREE.HemisphereLight 二、…

vue项目使用vite和vue-router实现history路由模式空白页以及404问题

开发项目的时候&#xff0c;我们一般都会使用路由&#xff0c;但是使用hash路由还是history路由成为了两种选择&#xff0c;因为hash路由在url中带有#号&#xff0c;history没有带#号&#xff0c;看起来更加自然美观。但是hash速度更快而且更通用&#xff0c;history需要配置很…

Fiori APP配置中的Semantic object 小bug

在配置自开发程序的Fiori Tile时&#xff0c;需要填入Semantic Object。正常来说&#xff0c;是需要通过事务代码/N/UI2/SEMOBJ来提前新建的。 但是在S4 2022中&#xff0c;似乎存在一个bug&#xff0c;即无需新建也能输入自定义的Semantic Object。 如下&#xff0c;当我们任…

芯片设计企业的IT支撑点

对于一个芯片设计企业&#xff0c;需要怎么样的IT支撑&#xff0c;这看起来并不是那么重要&#xff0c;并不影响芯片企业是否取得成功&#xff0c;但真正进入这个行业&#xff0c;你会发现&#xff0c;这里还是有一些门道的。 实际上&#xff0c;芯片设计企业对于IT的依赖很重&…

生成对抗网络入门:Mnist手写数字生成

本文为为&#x1f517;365天深度学习训练营内部文章 原作者&#xff1a;K同学啊 一 理论基础 生成对抗网络(Generative Adversarial Networks,GAN)是近年来深度学习领域的一个热点方向。 GAN并不指代某一个具体的神经网络&#xff0c;而是指一类基于博弈思想而设计的神经网络。…

22.4、Web应用漏洞分析与防护

目录 Web应用安全概述DWASP Top 10Web应用漏洞防护 - 跨站脚本攻击XSSWeb应用漏洞防护 - SQL注入Web应用漏洞防护 - 文件上传漏洞Web应用漏洞防护 - 跨站脚本攻击XSS Web应用安全概述 技术安全漏洞&#xff0c;主要是因为技术处理不当而产生的安全隐患&#xff0c;比如SQL注入…

软件的生命周期和需求

什么是软件的生命周期? 定义(描述) --> 创建 --> 使用 --> 销毁 (这一整个过程就是事物的生命周期) 生命周期 那么软件的生命周期又分为哪些呢? 一共分为十步: 可行性研究: 通过分析软件开发要求,确定软件项目的性质、目标和规模,得出可行性研究报告,如果可行性研…