人工智能辅助药物发现(1)肿瘤靶点识别

目录

  • 基于AI的靶点识别概述
  • 肿瘤建模
    • 肿瘤转录组
      • 转录组异质性
      • 单细胞转录组数据分析
    • 单细胞表观肿瘤模型
      • 肿瘤中的表观遗传模型
      • 基于甲基化测序技术的肿瘤表观遗传模型
      • 基于染色质可及性的肿瘤表观遗传模型
    • 多模态肿瘤建模
  • 靶点识别
    • 基于单细胞RNA的靶点发现
    • 基于表观的靶点发现
    • 基于多组学的靶点发现
  • 总结

基于AI的靶点识别概述

肿瘤药物研发是AIDD的应用场景,前提是靶点识别,早期靶点识别以肿瘤细胞的高变基因的致癌蛋白为主,筛选药物靶向这些蛋白。经过长时间的临床测试,发现这种方案覆盖的患者群体很有限。飞速发展的组学测量技术为发现新靶点带来希望。

  • 组学通常指生物学中对各类研究对象(一般为生物分子)的集合所进行的系统性研究,比如基因组,蛋白质组,转录组等。
  • 传统的批量组学技术(bulk)是以个体为研究对象,将待测生物样本中所有细胞混合在一起进行分子测定,只能反映两个肿瘤样本个体间的差异。
  • 现在的单细胞组学技术是对肿瘤样本中每个细胞进行分子的含量测量,全面刻画肿瘤细胞间以及肿瘤免疫微环境的异质性,为发现新的肿瘤靶点提供了更详细的方案。

随着测量技术的普及,肿瘤细胞的批量组学和单细胞组学数据都在快速积累。但是这些组学数据都有一个共同挑战:维度高,噪声大,数据类型多样等特点。

肿瘤建模

肿瘤转录组

转录组异质性

癌症的普遍特点是转录失调。在细胞内部,调节网络由一组连接的途径组成,其中途径是细胞中发生的化学反应链,通路是基因的集合,这些基因相互作用可以实现特定的细胞功能。为了使细胞正常运作,通路基因的表达水平需要得到控制。

  • 正常细胞和癌细胞存在很多差异表达的基因,癌细胞中的异常表达能通过抑制或刺激途径使途径失调,这可能会影响细胞的增殖能力,这种转录组上的差异即为癌症中的转录组异质性

转录组指的是细胞内所有转录产物的集合,包括信使RNA,核糖体RNA,转运RNA,非编码RNA。

转录组异质性在癌细胞中非常明显,这源于DNA拷贝的异常,细胞所处环境的刺激,基因相互作用混乱等(对于基因组相同的细胞,由于上述原因导致表现出不同的转录状态)。从转录层面看,癌症是一种细胞调节网络混乱的疾病,因此转录组的研究可以更好探索癌细胞。单细胞RNA测序可以绘制细胞的转录图谱,清晰展现细胞的转录特点

近年来,单细胞RNA测序(scRNA-seq)得到广泛应用,使得我们在单细胞水平研究转录组。2009年首次出现scRNA-seq方法,随后出现测量技术的改进,比如Drop-seq,Seq-Well,DroNC-seq,SPLiT-seq等。其中,基于液滴的技术(Drop-seq,InDrop,Chromium)可以提供更大的细胞通量,而且与全转录scRNA-seq相比,测量成本更低,因此更被推荐。另外,商业化技术以10xGenomics为主。

单细胞转录组数据分析

质量控制:scRNA-seq数据技术噪声水平高,破损,死亡或与多个细胞混合的细胞中会生成低质量数据,这些低质量数据阻碍下游分析,因此,需要质量控制。

批次校正:测序过程中的操作差异,平台差异,测序方法差异等会引入系统误差,导致一个批次的基因表达谱与另一个批次的基因表达谱存在系统误差,这种批次差异可能会掩盖真实的生物学差异,导致分析错误,因此需要批次校正。现在广泛使用的批次校正方法为Harmony,LIGER,Seurat v3。

插补去噪:scRNA-seq数据包含许多由于原始RNA扩增失败导致的dropouts,因此需要插补算法进行去噪:SAVER,MAGIC,ScImpute,DrImpute,AutoImpute。其中,SAVER利用基于UMI的scRNA-seq恢复所有基因的表达,MAGIC构建基于马尔可夫亲和度的基因表达图来计算基因表达,ScImpute利用类似细胞中dropout影响较小的相同基因信息,恢复dropout值。

降维:由于数据是高维的,我们需要降维和特征提取算法进一步分析数据。主流降维算法分为:基于矩阵分解,基于图,基于神经网络。分别对应常用的三类方法:PCA,t-SNE,UMAP。PCA是最常用的线性降维方法。t-SNE根据在邻域图上随机游走的概率分布在数据中找到结构关系。UMAP是基于k-近邻使用随机梯度下降优化的结果。

单细胞表观肿瘤模型

肿瘤中的表观遗传模型

染色质结构定义了DNA形式的遗传信息在细胞内的状态,基因组的结构影响着基因被激活或沉默的能力。表观遗传学被定义为:基因及其产物之间的因果相互作用,从而导致表型的形成,涉及到理解染色质结构及其对基因功能的影响。现代表观遗传学研究独立于原始DNA序列变化而发生的基因表达的可遗传变化。

这些可遗传的变化大部分在分化过程中建立,并在细胞分裂的多个周期中维持,使细胞在包含相同遗传信息的同时具有不同的身份。这是由表观遗传修饰决定的,包括DNA中胞嘧啶碱基的甲基化,组蛋白的翻译后修饰,核小体沿DNA的定位。这些修饰的补充,统称为表观基因组。如果不能正确维护可遗传的表观遗传标记,可能导致各种信号通路的不适当激活或抑制,导致癌症等疾病。

与基因突变不同,表观遗传畸变具有潜在可逆性,因此可以通过找到表观遗传层面肿瘤的靶点信息,治疗患者,使癌细胞恢复正常。第二代测序技术的进步,推动了表观遗传学的发展。例如:

  • ChIP-seq技术可以绘制组蛋白修饰和转录因子结合的全基因组图谱。
  • 利用ATAC-seq可以测定染色质可及性。
  • Hi-C可以确定高阶染色质结构。
  • DNA甲基化可以通过RRBS,WGBS或基于阵列的技术来确定。

生物表观遗传辅助诊前景广阔,但当前生物表观遗传辅助诊断面临许多挑战,比如数据分布广泛,模态多。我们希望借助机器学习技术集成大型数据,推动诊断的发展,帮助医生进一步解析数据。

基于甲基化测序技术的肿瘤表观遗传模型

基因甲基化使表观遗传的主要形式,同癌症的发生与发展有重要联系。DNA甲基化代表基因组的直接修饰,并调控基因表达。相比正常细胞,癌细胞的基因甲基化水平显著下降,这是癌细胞基因调控失衡的重要原因。

对于正常组织,细胞通过基因甲基化实现表达调控,当相关基因调控区的CpG岛大量发生甲基化时,会阻止该基因表达(即沉默)。DNA甲基化导致基因沉默的机制大致分三种:

  • DNA甲基化干扰转录因子对DNA元件的识别与结合;
  • 序列特异性的甲基化DNA结合蛋白与启动子区甲基化CpG岛结合,形成转录抑制复合物,阻止转录因子与启动子区的结合;
  • DNA甲基化改变染色质结构,使染色质更加紧密,影响转录因子与DNA结合。

mSEPT9基因甲基化是结直肠癌的生物标记物,mSEPT9基因编码的SEPT9蛋白在细胞代谢中发挥作用。SEPT9蛋白可阻止细胞过快分裂,具有抑癌作用。当SEPT9启动子区域甲基化时,SEPT9蛋白停止表达,导致上皮细胞癌变,发展为结直肠癌。


基因甲基化靶点的发现依赖算法,关键在于从噪声数据中识别出同癌症发生相关度高的基因甲基化信号,存在下面挑战:

  • 基因甲基化数据混合了各癌症克隆亚型以及正常细胞型的甲基化信号;
  • 单一基因的表达静默或开启存在多种甲基化模式;
  • 数据维度高,样本量有限;

机器学习在表观遗传领域通常是建立一个模型,准确预测给定样本的类别信息,例如从矩阵数据中区分正常与癌症样本。

针对高维数据挑战,现有工作从特征排序+特征选择特征融合三种思路进行降维。特征排序通过假设检验检测特征与标签的关联,并对特征的重要度进行排名。例如T检验计算P值来衡量零假设,即潜在假设是患者样本和对照组样本都符合正态分布。Wilcoxon检验评估两个分布之间的差异,其作为T检验的替代。特征选择建立在特征排序基础上,并考虑筛选特征。特征融合将多特征融合为单特征,以降低特征数量。

基于染色质可及性的肿瘤表观遗传模型

单细胞染色质可及性是在单细胞水平检测基因所在染色体是否处于开放状态:处于染色质开放状态的基因可被转录并表达,处于染色质闭合状态的基因会沉默。ATAC通常与DNA甲基化相关。相比甲基化测序,ATAC提供了更直接和确定的观测。

相比scRNA-seq,scATAC-seq分析更困难:

  • scATAC-seq高度稀疏,当前scATAC-seq测序技术仅能覆盖1%的基因组,此外,测量信号微弱,仅能测量极少数染色质的打开基因。
  • 研究浅薄,数据库极度缺乏。
  • 数据维度更高,scRNA-seq侧重于测量蛋白编码基因的RNA表达量,大约3万。scATAC-seq不局限于测量蛋白编码基因区间的染色质开合状态,测量范围包括全基因组。

多模态肿瘤建模

多组学分析,是指同时在多种不同的生物分子层面对研究对象进行分析,通过将基因组,表观组,转录组,蛋白组,代谢组等不同模态的分子数据整合,揭示更丰富的生物规律。单细胞多模态技术将肿瘤多组学分析的分辨率提高到细胞水平。

癌症多组学模型从信息整合方式上来看分为早期整合,中期整合,后期整合。见下图。最常用的是中期整合,它避免了早期整合的维度不匹配或样本不匹配问题,以及避免了后期整合的整合前分析信息不完备问题。
fig1
AI在单细胞多组学领域的应用场景分两种:

  • 第一种场景是不同组学的测量对象(细胞)不匹配。通常,假设每种组学测量的细胞来自同一个分布。
  • 第二种场景是不同组学的测量对象是同一批细胞。

靶点识别

基于单细胞RNA的靶点发现

以RNA失调作为肿瘤治疗的入口,寻找新的免疫治疗靶点成为肿瘤研究的热点,对不同RNA亚型以及参与RNA加工的蛋白质促成癌症的机制发现,为治疗癌症带来机遇。比如circRNA在癌症中过度表达展示了其作为疾病生物标志物的潜力。

转录组可用于肿瘤及免疫细胞的亚群分析,为肿瘤发展,免疫逃逸和耐药性研究提供全面信息。转录组层面的亚群分析可以提供亚群独特的蛋白等标志物,进而针对特定肿瘤亚群,免疫抑制性细胞亚群指定靶点药物。

从转录组出发的肿瘤细胞之间的相互作用研究也有望提供靶点。当前细胞间通信的识别方法有两种:

  • 依赖于一种细胞类型中受体基因与另一种细胞类型中相应配体基因的表达水平比较。CellPhoneDB方法首先计算一种细胞类型中受体基因的平均表达和另一种细胞类型中配体基因的平均表达,然后通过基于图的方法生成零分布,以评估统计显著性。
  • 计算一种细胞类型的受体基因表达与另一种细胞类型中相应配体基因表达在所有scRNA-seq数据集中的相关性识别特定的通信。

基于表观的靶点发现

表观调控异常是肿瘤细胞恶化的原因。从表观调控异常信号中搜索癌症的生物标记物具有广阔的临床应用前景,可用于开发能逆转肿瘤表观遗传异常的药物,抑制癌细胞增殖。

基于表观组学分析的人工智能方法可用于癌症亚型分类,协助指定个性化临床治疗方案。另一种用途是肿瘤-健康细胞差异分析和靶点识别。

基于多组学的靶点发现

肿瘤的发生是自身异常基因突变积累(内因)与免疫系统失衡(外因)共同导致的。因此,肿瘤治疗有两种思路:

  • 针对肿瘤细胞的异常特征识别出可以直接作用于肿瘤细胞的靶点。
  • 根据肿瘤免疫微环境的特点,识别作用于免疫细胞的靶点,从而提升免疫细胞对肿瘤的抑制效果。

其中,第二种方法即2018年获得诺贝尔奖的免疫疗法:利用患者自身免疫系统来预防,控制和消除癌症。免疫系统本身具备识别并消灭肿瘤细胞的功能,然而在肿瘤不断演化的过程中,肿瘤细胞学会了避开免疫系统的杀伤,从而产生免疫逃逸。

充分解析肿瘤免疫微环境,是发现免疫靶点的重要基础和前提。研究表明,肿瘤微环境会将T细胞长期暴露于抗原的持续慢性刺激下,使得T细胞丧失效应功能。T细胞失活导致细胞状态改变,在表观组,转录组和代谢组等方面均会体现异常。

目前,人们对肿瘤免疫微环境的了解有限,充分了解微环境的细胞构成,认识每种细胞类型在肿瘤发生过程中的作用,有望提升现有的免疫疗法水平。

AI在解构微环境上具有潜力。北京大学对肺癌免疫微环境中的T细胞群体进行了多模态分析,发现除肿瘤相关的CD8 T细胞呈现耗竭状态外,还有两种细胞呈现耗竭状态,并识别出对应的基因标志。

总结

AI结合单细胞数据,可以辅助靶点识别,从而进行药物筛选。此外,单细胞组学可细致刻画药物临床实验中的实验组和对照组在不同分子层面的差异,辅助判定药物的有效性,揭示药物作用机制。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/49452.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Commun. Biol. | 人工智能加速抗生素发现

今天给大家介绍宾夕法尼亚大学佩雷尔曼医学院Cesar de la Fuente-Nunez团队发表在Nature communications biology上的文章。该文章主要介绍表示学习,性质预测和生成模型等人工智能方法在小分子抗生素和抗菌肽发现中的应用。此外,作者还分析了该领域当前的…

麻省理工研究人员使用AI发现一种新抗生素

麻省理工学院的一组研究人员使用AI来发现一种受欢迎的新抗生素,以帮助抵抗耐药性的增加。 使用机器学习算法,麻省理工学院的研究人员能够发现一种新的抗生素化合物,该化合物在对小鼠进行30天的治疗期间没有产生任何抗药性。 使用大约2500个分…

MIT的这个AI,专治抗生素滥用,二次抗生素直降67%

郑集杨 发自 凹非寺 量子位 报道 | 公众号 QbitAI 随着抗生素的滥用,抗生素耐药性已经成为日趋严重的问题。 据《病理学》一书的统计,全球每年感染病死亡数从上世界60年代约700万人上升到了本世纪的2000万。 科学家们正在努力缓解这个趋势,目…

idea无法搜索下载插件问题解决

文章目录 IDEA无法搜索插件我的解决办法 IDEA无法搜索插件 最近重装了系统,需要配置好多环境,但当我在idea中搜索插件的时候,发现idea Plugins居然搜索不到插件,百度了下,都是些是设置idea勾选的设置,不过…

开发者在行动!中国防疫开源项目登上GitHub TOP榜

整理 | 唐小引 出品 | CSDN(ID:CSDNnews) 【导读】用开发者们的方式支援这场没有硝烟的战争! 截止北京时间 1 月 28 日下午 15:47,全国确诊新型冠状病毒的数字已经到达了 4586 例,疑似高达 6973 例&#xf…

mac笔记本当做服务器记录

持续更新中~ 三更:放弃了mac,转战树莓派4b 二更:使用dp 创建虚拟机ubuntu,并设置网卡桥接,使用正常 已废弃:因为docker的权限问题各种坑 大致画了一下家庭布局图 目录 持续更新中~基础环境准备1&#xff1…

GitHub 新品发布会摘要:云端编程、提问论坛、代码扫描

晓查 发自 凹非寺 转载自 | 量子位 和其他科技公司一样,GitHub 最近也把发布会改成了线上,但这并不妨碍 GitHub 发布重磅产品。 今天,GitHub 在巴黎举办的 Satellite 大会上一口气发布了 4 大产品。 首先是云端 IDE,名叫 Codespac…

mac用自带终端shell连接服务器以及部署项目

mac用自带终端shell连接服务器以及部署项目 一、登录服务器 1、链接服务器,打开shell,点击 新建远程连接 2、点击右侧 ,会出现弹框,输入服务器地址,点击好 3、添加完后右侧的服务器列表会出现刚才添加的内容&#…

Mac操作系统下一些开发经验分享

目录 前言在本地环境中使用Nginx添加信任HTTPS证书查看本地开启的tcp端口测试远程端口是否正常提供服务利用SSH让内网机器调试公网回调查看NetBIOS注册信息加速你的代码编辑速度显示文件的详细修改时间node.js安装npm安装全局包总是失败 使用多个SSH密钥IntelliJ IDEA启动Java时…

Linux 基金会开源教育及人才培养峰会来了

开源技术正在快速发展,在云计算、大数据、人工智能等领域逐步形成技术主流。作为一种新的软件生产方式,开源已经被列入“十四五”规划纲要。纲要提出,支持数字技术开源社区等创新联合体发展,完善开源知识产权和法律体系&#xff0…

影响 5000 万开发者,GitHub 与 CSDN 掌舵人对话技术社区未来

作者 | 卢鸫翔 责编 | 屠敏 2018年6月伊始,微软宣布将以75亿美元的价格收购热门在线代码分享和协作平台GitHub。如今近5个月的时间过去,我们终于等到了官宣,微软已于上周五正式完成收购GitHub的交易。与此同时,微软企业副总裁Na…

乔纳森离开苹果;李彦宏被泼水;Windows 公开 Linux 内核源代码 | 开发者周刊

【CSDN编者按】七月的第一周,科技圈就像盛夏的天气一样,冰火两重天。乔纳森离开苹果;李彦宏被泼水;Windows 公开 Linux 内核源代码......最近一周就有哪些开发者新闻呢?就在本期开发者周刊! 整理 | 红月 出…

这可能是史上最强大Mac连接服务器的软件,甚至能媲美Xshell的存在

今天介绍的这款软件叫做Royal TSX 好了,有些同学看到这个名字就跑了,并且留下了一句 别跑,你去下了你也不一定知道怎么用!!!! 我们先看看他的页面: 骚话不说了,直接开…

MacOS利用Github搭建个人博客过程记录

【需要科学上网】 笔者博客​​​​​​​ 一、尝试在Github建立简单页面 如果没有GitHub账户请先创建 ①在GitHub界面,点击New repository 创建新项目 Repository name填“用户名.github.io”,比如我的就应该填写“yang-makabaka.github.io” 下面选择Public ,然…

开发者在行动!中国防疫开源项目登上 GitHub TOP 榜

用开发者们的方式支援这场没有硝烟的战争! 整理 | 唐小引 出品 | CSDN(ID:CSDNnews) 截止北京时间 1 月 28 日下午 15:47,全国确诊新型冠状病毒的数字已经到达了 4586 例,疑似高达 6973 例,医护…

Mac当作云服务器,你真的会搞吗

1写作目的 最近淘了个mac,发现mac和linux还挺像的,并且云服务器马上就到期了,可以不可以把mac当做永久的云服务器呢? 2FinalShell(XShell)连接MAC MAC:首先选择系统偏好设置,选择里面的共享 MAC&#x…

【历史上的今天】7 月 22 日:Linux 开发的“二把手”出生;苹果发布 OS 8;MSN 发布

整理 | 王启隆 透过「历史上的今天」,从过去看未来,从现在亦可以改变未来。 今天是 2022 年 7 月 22 日,在 1945 年的今天,美国计算机科学家阿黛尔戈德堡(Adele Goldberg)出生;1970 年代时&…

【历史上的今天】6 月 4 日:微软收购 Github;MacOS Mojave 推出;英特尔发布第四代架构 Haswell

整理 | 王启隆 透过「历史上的今天」,从过去看未来,从现在亦可以改变未来。 今天是 2022 年 6 月 4 日,在 1998 年的今天,我国互联网用户突破一百万。自从中国科学技术网在国内首次实现了与国际互联网络的直接连接,我…

我用ChatGPT干了这18件事!格局一下打开了

因公众号更改推送规则,请点“在看”并加“星标”第一时间获取精彩技术分享 点击关注#互联网架构师公众号,领取架构师全套资料 都在这里 0、2T架构师学习资料干货分 上一篇:2T架构师学习资料干货分享 大家好,我是互联网架构师&…

Chrome模拟手机浏览器(iOS/Android)的三种方法,亲测无误!

各大网站都有推出自己的手机访问版本页面,不管是新闻类还是视频网站,我们在电脑是无法直接访问到手机网站的,比如我经常访问一个3g.qq.com这个手机站点,如果在电脑上直接打开它,则会跳转到其它页面,一般我会…