Commun. Biol. | 人工智能加速抗生素发现

323041c7e1b296e890a7602d5aa57b48.png

今天给大家介绍宾夕法尼亚大学佩雷尔曼医学院Cesar de la Fuente-Nunez团队发表在Nature communications biology上的文章。该文章主要介绍表示学习,性质预测和生成模型等人工智能方法在小分子抗生素和抗菌肽发现中的应用。此外,作者还分析了该领域当前的开源问题和可复现问题,讨论了未来的研究趋势和可研究方向。

1

背景

通过有效地针对入侵的生物体,抗生素参与到宿主-病原体进化军备竞赛的古老斗争中。然而,细菌因自然选择而进化出的耐药性正在削弱现有抗生素的疗效。根据美国疾病控制和预防中心估计,美国每年有280万例感染是由耐药细菌引起的,其中有3.5万人死于这种无法治疗的感染。当前处于临床试验中的抗生素大多与已经出现耐药机制的现有药物类似,这进一步强调了发现全新抗生素的必要性。

然而,抗生素研发是一个缓慢、昂贵且容易失败的过程,这一过程可能持续数十年,花费数亿美元。从2014年至2019年,只有14种新的抗生素成功研发并通过审批。在一项对超过21000种化合物的近186000项临床试验的调查中,研发的新药能够成功治疗传染病的可能性仅为25.2%。

这一挑战催生了一系列基于启发式和人工智能算法的抗生素发现方法。可用的公开数据集(表1)、计算机技术的进展以及开源机器学习库的激增极大地促进了人工智能在药物发现和抗生素发现中的应用。在这篇综述中,作者着重介绍人工智能应用于小分子抗生素和抗菌肽发现的方法。

d2956792318743b110b16afe186eb89c.png

表1 抗生素发现的数据集

2

化合物表示学习

表示学习是计算药物发现流程(图1)的一个重要组成部分。为了避免浪费大量时间和金钱用于合成非活性化合物和进行实验,研究人员利用表示学习来表征候选药物并据此预测药物的性质。分子的各种性质和实验可以产生大量的信息,例如,为了描述简单的氨基酸残基,在线数据库中已经有400多个不同的测量方法;对于小分子药物,有计算和压缩量子力学推导出的描述符来表示拓扑性质的方法。然而,测量得到的数据不一定能准确地表示分子。这催生了一系列研究,将实验数据组合成简单的描述符,以尽可能少的维度来描述尽可能多的信息。

文章提到的一个典型的例子是使用图卷积网络,其利用分子的几何形状和连通性将分子转化为图,利用神经网络从化学结构中学习分子的特征。类似的,也有工作使用图神经网络的方法来表示和预测蛋白质结构。

递归神经网络(RNNs)在信号处理和自然语言处理(NLP)领域很常见,且现在已经被用于处理分子的SMILES表示。有研究人员使用长短期记忆单元(LSTM)从已知药物的SMILES学习分子特征并生成新的化合物。另外,RNN也可与强化学习结合,根据药物的SMILES生成药物的embedding特征。RNN还用于抗菌肽的表示,有研究人员利用基于ONE-HOT编码的LSTM自编码器和LSTM神经网络来学习和生成抗菌肽序列的表示,其可以用于推导蛋白质的二级结构、热稳定性、残基突变类型,甚至是突变带来的功能性影响。

9041d6ae551ef542c8c4e9a2cac7d167.png

图1 计算抗生素发现流程

3

性质预测

抗菌小分子活性预测是机器学习运用于抗生素发现中的核心,推动了近几十年来在QSAR问题的研究并提供新的解决方案(表2)。例如,有研究人员使用逻辑回归对训练集中的分子片段进行分类。这一方法构造了一个基于分子片段的活性“词汇表”,可以将这些分子片段拼接起来作为针对革兰氏阴性菌铜绿假单胞菌有活性的新抗生素。最近也有研究人员试图寻找现有的药物作为抗生素,其利用神经网络来学习化合物的表示,然后评估其抗菌潜力。该工作还利用了集成学习,其结合模型的多个副本(具有不同的权重),并考虑了每个模型的加权投票来实现最终的预测。文章中还提到了基于支持向量机预测分子的抗菌活性;基于深度神经网络预测多肽对铜绿假单胞菌的活性;基于RNN的回归模型挑选具有抗菌活性的抗菌肽等方法。

抗菌肽被认为是解决微生物耐药性进化的新抗生素的主要来源。抗菌肽限制耐药性进化的能力与其不同的生理作用机制有关,这使得研究人员专注于多肽的分类和发现新的作用机制。例如,有研究人员提出利用DBSCAN聚类并预测抗菌肽对革兰氏阴性菌的活性,并在体外合成了有效的候选抗菌肽。此外,还有研究人员基于已知抗生素的活性和一系列同源序列训练一个广义线性模型来生成对大肠杆菌抗菌活性增加160倍的新抗菌肽。由于广义线性模型所发现的模式可以通过分析模型的权重来直接解释,因此可以直接将模型转化为抗菌肽设计的指导信息。

近几十年来,药物类药性(drug-likeness)的预测方法不断发展,其感兴趣的特征包括吸收、分布、代谢、排泄和毒性(ADMET)。基于机器学习的结合亲和力预测也可以通过确定具有更有利的药物-靶点相互作用的候选药物来加速高通量筛选和基于结构的药物先导物优化。文章提到有一系列工作分别利用神经网络、分类树、梯度增强分类器和共识模型预测抗菌肽和类抗菌肽药物的溶血活性。也有一系列研究利用随机森林、深度神经网络和深度泰勒分解用于预测候选药物的细胞毒性。

开发基于抗菌肽的抗生素的还必须考虑肽的溶解性和稳定性。已有相关工作利用神经网络、梯度增强模型、逻辑回归分类器、支持向量机和随机森林预测蛋白质溶解度。在评估抗菌肽的稳定性时,蛋白水解酶的降解作用也是一个重要因素。如果能识别抗菌肽的水解酶结合位点,那将有利于先导抗菌肽的挑选和稳定性优化。现有一系列工作利用SVM、卷积神经网络、条件随机机场分类器和逻辑回归模型,来预测水解位点。类似的,有工作利用基于注意力的图神经网络和朴素贝叶斯分类器来预测类药化合物的稳定性。

与大多数治疗方法不同,抗生素设计的目标是杀死具有耐药性进化能力的细菌。因此,抗生素药物设计需要考虑细菌耐药性进化的不可避免性。虽然当前已有基于机器学习的耐药性预测方法在临床上预测抗生素配方的耐药性,作者更希望在药物开发的实验中使用耐药性预测。作者预计流行病学和医学中的基于耐药性基因组学的机器学习方法将越来越多地专门用于药物开发,例如利用机器学习对先导化合物的耐药性实验进行预测。目前基于机器学习的抗药性预测都是基于细菌的基因组特征,而不是药物或分子靶点特征。例如,已有工作基于病原体基因组数据训练了能够预测细菌对抗生素的敏感性和耐药性表型的机器学习模型,包括肺炎克雷伯菌、大肠杆菌、P.铜绿假单胞菌、结核分枝杆菌和金黄色葡萄球菌。也有工作利用SVM预测外排介导的耐药性。

虽然“黑盒”方法可能限制机器学习用于减少耐药风险,但可解释性机器模型可以使模型能够在机体和种群规模上找出耐药性的进化原因。有研究人员结合机器学习与基因-蛋白结构图谱,以研究结核分枝杆菌耐药性进化的驱动因素,其假设赋予细菌耐药性的基因之间的相互作用表现为它们在SVM超平面的权重和符号的相关性。还有工作开发出开源软件用于基于蛋白质同源性的基因变异定位的可解释耐药性预测。

ea09d77d8ff861952c37d0dc7721a4dc.png

表2 用于抗生素发现的机器学习模型

4

基于深度生成模型的抗生素发现

生成式深度学习可以通过多种方式来辅助抗生素的发现。作者着重介绍从头分子设计,其通常使用生成对抗网络(GANs),变分自动编码器(VAEs)相关的架构。GAN由生成模型和判别模型组成,其推断训练数据的概率分布,以便从这个分布构造新的样本。在一个极大极小博弈中,两个模型都被训练以优化判别器的错误率:生成器被训练以最小化判别器正确区分真实数据和合成数据的可能性,判别器被训练以最大化这种可能性。与经典的自编码器一样,VAEs将输入编码到隐层表示中,然后解码重构,学习能够描述训练数据的隐层变量。然而,VAEs是一种定向的概率模型,通过变分贝叶斯方法学习连续的潜在变量。本节介绍这两种模型应用于药物发现的几种变体。

深度生成模型已经被用于化学工程和蛋白质工程,包括无机物的逆向设计和基于图的神经网络模型蛋白质折叠生成。已有工作分别利用了结合深度强化学习的生成网络,深度生成对抗自动编码器,可微分强化学习和对抗训练神经网络,结合蒙特卡罗树搜索的深度神经网络,结合随机和目标指引分子设计的自动编码器GAN用于从头药物设计。鉴于对序列数据的适用性,也有工作利用接受SMILES输入的RNN模型进行药物设计。

在化学工程、蛋白质工程和整体药物开发中,人们对深度生成模型的兴趣日益浓厚,类似的技术可能会越来越多地应用于抗菌肽和小分子抗生素设计。到目前为止,GAN已被用于生成一个对大肠杆菌的最低抑制浓度明显低于氨苄青霉素的抗菌肽。基于迁移学习的LSTM生成模型表明,在对较小数据集的目标特异性生物活性分子进行微调后,可以成功生成已知的靶向金黄色葡萄球菌的分子。此外,有研究者在一个基于单向LSTM的抗菌肽设计中,观察到82%的生成肽是潜在的抗菌肽,而训练数据的氨基酸分布中只有65%的随机排列被预测为抗菌素。

5

开源和可复现性

一个确保计算可重复性的开放科学机制保证了公众可以免费访问文章(1)源代码、(2) 训练和测试数据以及(3)发表的研究结果,这有利于加速基于机器学习的抗生素发现。然而, 对400篇人工智能会议论文的分析显示,只有6%发布了代码,54%发布了伪代码,30%的发布了测试数据。在生命科学和医学的机器学习中,最近的一项综述发现,300份出版物中有50%发布了软件,而64%发布了数据。一项对511项研究的综述发现,在可复现性等多个指标上,将机器学习应用于生命健康科学领域的可复现性指标相比自然语言处理、计算机视觉和一般ML的论文表现不佳。因此,作者呼吁提高基于机器学习的抗生素发现的开源。

6

趋势和未来研究方向

为了评估机器学习对抗生素发现的发表状况,作者研究了PubMed论文的趋势。结果表明,在21世纪的头二十年里,机器学习在抗生素和癌症药物领域的应用落后于广泛药物开发领域的应用近十年。令人惊讶的是,心血管药物领域的机器学习论文数更低。不过,广泛药物开发的大量应用预计随着时间的推移将对特异性疾病群体研究产生促进影响。在21世纪的第三个十年里,机器学习促进的抗生素发现的前景将部分取决于数据的改进。随着更大数据集的公开,可以更严格地重新审视曾经遇到的问题。联邦学习可能会促进在各研究机构数据闭源的情况下扩展经验数据集。

最近的一篇综述观察到,以计算机科学、生物学和医学合作为特色的生物医学出版物具有更大的技术正确性,这表明抗生素发现可能从综合专业知识中获益。推动机器学习与体外和体内实验的结合,甚至是额外的计算方法,如分子动力学模拟,将有助于确保模型的可靠性。对于机器学习模型内部决策中普遍存在的“黑箱”问题,可解释性机器学习是生物医学计算中一个日益扩大的焦点,其被用于阐明抗生素的作用机制。

参考文献

Melo, M.C.R., Maasch, J.R.M.A. & de la Fuente-Nunez, C. Accelerating antibiotic discovery through artificial intelligence. Commun Biol 4, 1050 (2021). 

https://doi.org/10.1038/s42003-021-02586-0

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/49450.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

麻省理工研究人员使用AI发现一种新抗生素

麻省理工学院的一组研究人员使用AI来发现一种受欢迎的新抗生素,以帮助抵抗耐药性的增加。 使用机器学习算法,麻省理工学院的研究人员能够发现一种新的抗生素化合物,该化合物在对小鼠进行30天的治疗期间没有产生任何抗药性。 使用大约2500个分…

MIT的这个AI,专治抗生素滥用,二次抗生素直降67%

郑集杨 发自 凹非寺 量子位 报道 | 公众号 QbitAI 随着抗生素的滥用,抗生素耐药性已经成为日趋严重的问题。 据《病理学》一书的统计,全球每年感染病死亡数从上世界60年代约700万人上升到了本世纪的2000万。 科学家们正在努力缓解这个趋势,目…

idea无法搜索下载插件问题解决

文章目录 IDEA无法搜索插件我的解决办法 IDEA无法搜索插件 最近重装了系统,需要配置好多环境,但当我在idea中搜索插件的时候,发现idea Plugins居然搜索不到插件,百度了下,都是些是设置idea勾选的设置,不过…

开发者在行动!中国防疫开源项目登上GitHub TOP榜

整理 | 唐小引 出品 | CSDN(ID:CSDNnews) 【导读】用开发者们的方式支援这场没有硝烟的战争! 截止北京时间 1 月 28 日下午 15:47,全国确诊新型冠状病毒的数字已经到达了 4586 例,疑似高达 6973 例&#xf…

mac笔记本当做服务器记录

持续更新中~ 三更:放弃了mac,转战树莓派4b 二更:使用dp 创建虚拟机ubuntu,并设置网卡桥接,使用正常 已废弃:因为docker的权限问题各种坑 大致画了一下家庭布局图 目录 持续更新中~基础环境准备1&#xff1…

GitHub 新品发布会摘要:云端编程、提问论坛、代码扫描

晓查 发自 凹非寺 转载自 | 量子位 和其他科技公司一样,GitHub 最近也把发布会改成了线上,但这并不妨碍 GitHub 发布重磅产品。 今天,GitHub 在巴黎举办的 Satellite 大会上一口气发布了 4 大产品。 首先是云端 IDE,名叫 Codespac…

mac用自带终端shell连接服务器以及部署项目

mac用自带终端shell连接服务器以及部署项目 一、登录服务器 1、链接服务器,打开shell,点击 新建远程连接 2、点击右侧 ,会出现弹框,输入服务器地址,点击好 3、添加完后右侧的服务器列表会出现刚才添加的内容&#…

Mac操作系统下一些开发经验分享

目录 前言在本地环境中使用Nginx添加信任HTTPS证书查看本地开启的tcp端口测试远程端口是否正常提供服务利用SSH让内网机器调试公网回调查看NetBIOS注册信息加速你的代码编辑速度显示文件的详细修改时间node.js安装npm安装全局包总是失败 使用多个SSH密钥IntelliJ IDEA启动Java时…

Linux 基金会开源教育及人才培养峰会来了

开源技术正在快速发展,在云计算、大数据、人工智能等领域逐步形成技术主流。作为一种新的软件生产方式,开源已经被列入“十四五”规划纲要。纲要提出,支持数字技术开源社区等创新联合体发展,完善开源知识产权和法律体系&#xff0…

影响 5000 万开发者,GitHub 与 CSDN 掌舵人对话技术社区未来

作者 | 卢鸫翔 责编 | 屠敏 2018年6月伊始,微软宣布将以75亿美元的价格收购热门在线代码分享和协作平台GitHub。如今近5个月的时间过去,我们终于等到了官宣,微软已于上周五正式完成收购GitHub的交易。与此同时,微软企业副总裁Na…

乔纳森离开苹果;李彦宏被泼水;Windows 公开 Linux 内核源代码 | 开发者周刊

【CSDN编者按】七月的第一周,科技圈就像盛夏的天气一样,冰火两重天。乔纳森离开苹果;李彦宏被泼水;Windows 公开 Linux 内核源代码......最近一周就有哪些开发者新闻呢?就在本期开发者周刊! 整理 | 红月 出…

这可能是史上最强大Mac连接服务器的软件,甚至能媲美Xshell的存在

今天介绍的这款软件叫做Royal TSX 好了,有些同学看到这个名字就跑了,并且留下了一句 别跑,你去下了你也不一定知道怎么用!!!! 我们先看看他的页面: 骚话不说了,直接开…

MacOS利用Github搭建个人博客过程记录

【需要科学上网】 笔者博客​​​​​​​ 一、尝试在Github建立简单页面 如果没有GitHub账户请先创建 ①在GitHub界面,点击New repository 创建新项目 Repository name填“用户名.github.io”,比如我的就应该填写“yang-makabaka.github.io” 下面选择Public ,然…

开发者在行动!中国防疫开源项目登上 GitHub TOP 榜

用开发者们的方式支援这场没有硝烟的战争! 整理 | 唐小引 出品 | CSDN(ID:CSDNnews) 截止北京时间 1 月 28 日下午 15:47,全国确诊新型冠状病毒的数字已经到达了 4586 例,疑似高达 6973 例,医护…

Mac当作云服务器,你真的会搞吗

1写作目的 最近淘了个mac,发现mac和linux还挺像的,并且云服务器马上就到期了,可以不可以把mac当做永久的云服务器呢? 2FinalShell(XShell)连接MAC MAC:首先选择系统偏好设置,选择里面的共享 MAC&#x…

【历史上的今天】7 月 22 日:Linux 开发的“二把手”出生;苹果发布 OS 8;MSN 发布

整理 | 王启隆 透过「历史上的今天」,从过去看未来,从现在亦可以改变未来。 今天是 2022 年 7 月 22 日,在 1945 年的今天,美国计算机科学家阿黛尔戈德堡(Adele Goldberg)出生;1970 年代时&…

【历史上的今天】6 月 4 日:微软收购 Github;MacOS Mojave 推出;英特尔发布第四代架构 Haswell

整理 | 王启隆 透过「历史上的今天」,从过去看未来,从现在亦可以改变未来。 今天是 2022 年 6 月 4 日,在 1998 年的今天,我国互联网用户突破一百万。自从中国科学技术网在国内首次实现了与国际互联网络的直接连接,我…

我用ChatGPT干了这18件事!格局一下打开了

因公众号更改推送规则,请点“在看”并加“星标”第一时间获取精彩技术分享 点击关注#互联网架构师公众号,领取架构师全套资料 都在这里 0、2T架构师学习资料干货分 上一篇:2T架构师学习资料干货分享 大家好,我是互联网架构师&…

Chrome模拟手机浏览器(iOS/Android)的三种方法,亲测无误!

各大网站都有推出自己的手机访问版本页面,不管是新闻类还是视频网站,我们在电脑是无法直接访问到手机网站的,比如我经常访问一个3g.qq.com这个手机站点,如果在电脑上直接打开它,则会跳转到其它页面,一般我会…

ChatGPT常用的提示语(prompts)系列三

系列文章目录 内容翻译自:https://github.com/f/awesome-chatgpt-prompts,并加入自己的实践内容 1、 ChatGPT常用的提示语(prompts)系列一 2、 ChatGPT常用的提示语(prompts)系列二 文章目录 系列文章目录9…