小罗碎碎念
在癌症诊疗领域,精准预测患者预后对临床决策意义重大。传统的癌症分期系统,如TNM分期,因无法充分考量肿瘤异质性,难以准确预测患者的临床结局。而基于人工智能的多模态融合模型虽有潜力,但在实际临床应用中,患者多模态数据不完整的问题限制了其发挥。
针对上述困境,本文提出了一种可解释的桥接多模态融合模型(Brim)。该模型整合了组织病理学、基因组学和转录组学数据,通过Transformer - based MIL方法学习病理图像中斑块的空间分布和相互作用,利用桥接网络挖掘图像与分子特征间的关联,还能在缺少分子数据时借助病理图像模拟生成伪基因组特征。
作者类型 | 姓名 | 单位 |
---|---|---|
第一作者 | Feng Gao | 中山大学附属第六医院普通外科(结直肠外科);中山大学附属第六医院生物医学创新中心;上海人工智能实验室;广东省结直肠盆底疾病重点实验室 |
通讯作者 | Junwei Liu | 广州实验室 |
通讯作者 | Yixue Li | 广州实验室;中国科学院大学杭州高等研究院生命科学学院系统健康科学重点实验室;广州医科大学GZMU - GIBH联合生命科学学院粤港澳细胞命运调控与疾病联合实验室;上海交通大学生命科学与生物技术学院;中国科学院上海营养与健康研究所;复旦大学遗传与发育协同创新中心;上海生物医药与制药技术研究所 |
通讯作者 | Xiao - Jian Wu | 中山大学附属第六医院普通外科(结直肠外科);中山大学附属第六医院生物医学创新中心;广东省结直肠盆底疾病重点实验室 |
经多组学数据分析和模型性能评估,Brim在多模态数据下预测癌症患者预后的平均C指数达0.682,优于单模态模型和已有的多模态融合模型;在仅使用病理图像时,平均C指数也有0.63,同样表现出色。此外,通过模型可解释性分析,还能确定与癌症预后相关的关键图像和分子特征。
Brim模型为癌症预后预测提供了更有效的工具,不过深度学习方法的黑箱性,以及伪基因组特征背后生物学机制的不明确,仍是后续研究需要突破的方向。
交流群
欢迎大家加入【医学AI】交流群,本群设立的初衷是提供交流平台,方便大家后续课题合作。
目前小罗全平台关注量52,000+
,交流群总成员1100+
,大部分来自国内外顶尖院校/医院,期待您的加入!!
由于近期入群推销人员较多,已开启入群验证,扫码添加我的联系方式,备注姓名-单位-科室/专业
,即可邀您入群。
知识星球
如需获取推文中提及的各种资料,欢迎加入我的知识星球!
已订阅星球用户无需二次付费,可以直接获取本篇推送的pdf版本,并且可以在星球中向我提问!
一、文献概述
这篇文章介绍了一种名为Brim的可解释多模态融合模型,用于在泛癌种中结合组织学和基因组学数据进行生存预测。
-
背景与动机:癌症的复杂性和异质性导致临床结果难以预测,传统TNM分期系统无法充分考虑肿瘤异质性。人工智能(AI)在癌症研究中取得了显著进展,但多模态数据的缺失限制了其临床应用。
-
模型开发:Brim模型通过结合病理全切片图像(WSIs)和多组学特征(突变状态、拷贝数变异、RNA-seq基因表达)来预测癌症患者的生存风险。模型包括四个主要部分:WSI预处理、病理图像特征模块、分子特征模块和桥接网络。桥接网络用于学习配对的WSI和基因组分子特征之间的关联,特别是在仅使用WSI预测缺失的分子信息时。
-
模型优势:Brim模型不仅整合了基因组分子特征和WSI进行预后预测,还能仅使用WSI进行预后预测,降低了临床应用成本,使临床决策更加个性化。
-
实验验证:模型在TCGA数据库的12种癌症类型和5271名泛癌患者中进行了训练和测试,还使用了中国结直肠癌临床基因组学研究(COCC)队列进行独立验证。结果表明,Brim模型在完整和缺失模态下均表现出色,平均C-index达到0.682,显著优于其他单模态和多模态模型。
-
模型解释性分析:通过注意力机制和积分梯度归因分析,揭示了与癌症预后相关的WSI和基因组分子特征。Brim模型在病理图像中更关注肿瘤细胞区域,并识别出与患者预后显著相关的基因。
-
结论与展望:Brim模型为泛癌患者预后预测提供了新的方法,不仅在多模态数据完整时表现出色,还能在仅使用WSI时进行有效预测,降低了临床应用成本,为临床医生提供了更精准的诊断和治疗决策工具。
二、重点关注
2-1:癌症预后预测模型
- 图A:介绍了桥接多模态融合模型(Brim)的架构。包含全切片图像(WSI)预处理、病理图像模块(利用Transformer处理图像斑块获取组织学特征)、分子图谱模块(使用Self - Normalizing Networks (SNN)处理基因组数据获取组学特征),最后通过桥接网络将两种特征融合以生成预后分数。
- 图B:是模型可解释性分析。左侧分子可解释性部分展示了不同类型基因变异(CNV、MUT、RNA - Seq)的集成梯度(IG)值,列出了相关基因;右侧病理可解释性部分展示了病理图像示例。
- 图C:说明了数据来源,样本来自多种癌症类型(如LUSC、LUAD等),数据分别来自美国国家癌症研究所癌症基因组学中心(NIH)的5271例样本和国际癌症基因组联盟加速癌症基因组研究(ARGO)的445例样本 。
2-2:模型性能对比
这张图片展示了Brim模型与其他基线方法(SNN、AMIL、TransMIL、MMF)在12种癌症类型中预后预测性能的比较,主要通过C-index指标来衡量。
总体表现
- Brim模型性能最优:在12种癌症类型中,Brim模型的C-index值普遍高于其他模型,表明其在预后预测方面具有更高的准确性。
- 多模态融合的优势:Brim模型作为多模态融合模型,能够整合病理图像和多组学数据,从而在预测性能上优于仅使用单一模态数据的模型(如SNN、AMIL、TransMIL)。
统计显著性
- Kaplan-Meier分析:图中标注的星号(*)表示Brim模型在相应癌症类型中的风险分层具有统计学意义(p < 0.05),进一步验证了其预测结果的可靠性。
模型对比
- 单模态模型的局限性:SNN、AMIL和TransMIL等单模态模型在某些癌症类型中的表现不如Brim模型,这凸显了多模态数据融合在提高预测准确性方面的重要性。
- MMF模型的比较:MMF作为另一种多模态融合模型,其性能在多数癌症类型中低于Brim模型,这表明Brim模型在多模态数据整合和特征学习方面具有独特的优势。
2-3:数据+代码
- 公开数据 :本研究的公开数据可通过加州大学圣克鲁兹分校的 UCSC Xena 平台(https://xena.ucsc.edu/)获取。
- 内部数据 :本研究的内部数据可通过向通讯作者提出请求并签署数据访问协议来获取。
- 源代码 :深度学习模型的源代码可在以下网址在线获取:https://github.com/dingjunxiang/Brim。
三、实验细节
3-1:研究参与者
本研究从TCGA数据库中收集了泛癌患者的H&E诊断全切片图像(WSIs)、基因组分子特征和临床信息。纳入标准包括:
- 1)具有完整的5年生存随访信息的患者;
- 2)具有完整的基因表达、拷贝数变异(CNV)和突变数据的患者;
- 3)所选癌症类型应至少有250例未删失生存数据病例。
共有12种癌症类型和5271例患者样本被纳入用于泛癌预后模型的训练和测试,单个癌症类型的患者数量范围为287至918例。TCGA项目中的COAD和READ被合并为一个队列,即TCGA-COADREAD。
所有预处理数据均通过加州大学圣克鲁兹分校的UCSC Xena平台(https://xena.ucsc.edu/)获取。
同时,纳入了来自ICGC-ARGO项目的中国结直肠癌临床基因组学研究(COCC)的内部队列。所有患者样本均来自中山大学附属第六医院,选取了445例符合TCGA泛癌队列相同纳入标准的患者样本。
已从所有预期患者处获得书面知情同意,并经中山大学附属第六医院伦理委员会批准。每个队列的患者临床和人口统计学特征的详细总结见表3。
3-2:程序
所有通过扫描病理组织切片获得的WSIs均以SVS格式存储。
对于有多张WSIs的患者,随机选取一张作为输入。每张WSI通过公共CLAM[11]仓库使用默认参数进行全自动分割,分割后提取的所有256×256图像块被下采样至40倍放大,对应0.25微米/像素。
随后,应用预训练的ResNet50模型从每个图像块中提取1024维特征嵌入。对于使用大型基础模型进行WSI嵌入推理,采用了UNI模型的补丁编码器和预训练权重(https://github.com/mahmoodlab/UNI),然后按照之前概述的方法进行补丁嵌入。
为了尽可能保留基因组分子信息,仅筛选出具有缺失值的遗传特征。使用Python(版本3.7.7)中的sci-kit-learn(版本1.3)包对筛选后的遗传数据集进行标准化处理。
3-3:预后预测模型性能评估
使用Scikit-learn包(https://scikit-learn.org)进行五折交叉验证评估,以表征每个队列中模型的性能,并应用C-index作为评估模型预测性能的指标,以及交叉验证评估中C-index的均值和置信区间。
在对单个癌症的评估迭代中,80%的患者样本被用作训练集,而剩余的20%被设为测试数据集,用于模型评估。
3-4:统计分析
条形图表示通过五折交叉验证获得的均值。对于分类变量,使用卡方检验评估组间差异。当期望频率小于5时,应用Fisher精确检验评估组间差异。
对于连续变量,使用Student t检验分析具有正态分布的两组之间的差异。对于具有非正态分布的组,采用Mann-Whitney U检验确定差异。使用Kaplan–Meier分析和log-rank检验评估不同临床风险患者分层的统计显著性,并选择连续风险评分的中位数截断值。
使用Cox比例风险回归模型进行单变量分析。所有分析均视为统计显著,如果双侧P值小于0.05。所有统计分析均使用R(版本4.1.2)进行。
结束语
本期推文的内容就到这里啦,如果需要获取医学AI领域的最新发展动态,请关注小罗的推送!如需进一步深入研究,获取相关资料,欢迎加入我的知识星球!