基于人工智能(AI)的蛋白结构预测工具合集

蛋白质折叠涉及重新排列空间中的线性氨基酸序列,使其处于低能状态。仅基于氨基酸序列预测正确的三维结构非常困难,其原因在于肽键的自由组合会产生大量的可能性:即使对于一个小的蛋白质进行结构域顺序抽样,耗费的时间都将超过宇宙的年龄,因此计算预测是为了规避顺序抽样问题。在过去的40年里,计算预测一直在稳步改进,通过X 射线晶体学、核磁共振波谱和低温电子显微镜(cryo-EM)等实验确定蛋白质结构序列的同源性。自1994年起,每两年通过将计算预测方法应用于最新解析的蛋白质结构评估其性能。三年前,AlphaFold的首次实施已经是将人工智能应用于解析蛋白质结构的革命性进步。2020年,重新设计的AlphaFold近乎完美地精确预测出了蛋白质三维结构,其预测水准与实验室水平相差无几,一举破解了困扰学界长达五十年之久的“蛋白质折叠”难题。DeepMind团队提出了一种计算方法名为AlphaFold 2,即使在不知道相似结构的情况下,也可以以原子精度定期预测蛋白质结构。2021年7月15日,DeepMind团队在Nature杂志上发表了文章"Highly accurate protein structure prediction with AlphaFold",描述了AlphaFold2是一个基于神经网络的全新设计的AlphaFold版本,其预测的蛋白质结构能达到原子水平的准确度。2021年7月15日,华盛顿大学蛋白设计研究所David Baker教授课题组及其他合作机构在Science上发表论文"Accurate prediction of protein structures and interactions using a three-track neural network",公布了其开源蛋白质预测工具RoseTTAFold的研究结果。

AlphaFold2 和 RoseTTAFold 等数据和人工智能驱动的蛋白质折叠预测工具为大分子结构预测和设计提供了强大的驱动力。本文旨在总结相关工具。

https://github.com/sacdallago/folding_tools

基于 MSA

使用多序列比对 (MSA) 作为输入

AlphaFold2

2021年7月15日,DeepMind团队在Nature杂志上发表了文章"Highly accurate protein structure prediction with AlphaFold",描述了AlphaFold2是一个基于神经网络的全新设计的AlphaFold版本,其预测的蛋白质结构能达到原子水平的准确度。目前,DeepMind 在 GitHub 上公开了 AlphaFold2 的源代码,还免费开放了 AlphaFold 数据集。

  • https://github.com/deepmind/alphafold

  • https://colab.research.google.com/github/deepmind/alphafold/blob/main/notebooks/AlphaFold.ipynb

  • https://alphafold.ebi.ac.uk/

Jumper, J., Evans, R., Pritzel, A. et al. Highly accurate protein structure prediction with AlphaFold. Nature 596, 583–589 (2021). 

https://doi.org/10.1038/s41586-021-03819-2

RoseTTAFold

2021年7月15日,华盛顿大学蛋白设计研究所David Baker教授课题组及其他合作机构在Science上发表论文"Accurate prediction of protein structures and interactions using a three-track neural network",公布了其开源蛋白质预测工具RoseTTAFold的研究结果。

  • https://github.com/RosettaCommons/RoseTTAFold

  • https://www.ipd.uw.edu/2021/07/rosettafold-accurate-protein-structure-prediction-accessible-to-all/

  • https://robetta.bakerlab.org/

  • https://www.rosettacommons.org/docs/latest/application_documentation/structure_prediction/fold-and-dock

Accurate prediction of protein structures and interactions using a three-track neural network. Science  15 Jul 2021:eabj8754

DOI: 10.1126/science.abj8754

ColabFold

ColabFold 通过将 MMseqs2 的快速同源搜索与 AlphaFold2 或 RoseTTAFold 相结合,加速预测蛋白质结构和复合物。ColabFold 的搜索速度提高了 40-60 倍,并优化了模型利用率,每天可以在具有一个图形处理单元的服务器上预测近 1,000 个结构。与 Google Colaboratory 相结合,ColabFold 成为一个免费且可访问的蛋白质折叠平台。

  • https://github.com/sokrypton/ColabFold

  • https://colabfold.mmseqs.com/

Mirdita, M., Schütze, K., Moriwaki, Y. et al. ColabFold: making protein folding accessible to all. Nat Methods 19, 679–682 (2022). 

https://doi.org/10.1038/s41592-022-01488-1

OpenFold

OpenFold 是 DeepMind 的 AlphaFold2 的 PyTorch 复现版本,用于自动处理蛋白质折叠实验。OpenFold 并不是同类中的第一个,但它是迄今为止最完整的,并且拥有与 AlphaFold 相等或更高的能力。与 AlphaFold 一样,以自己的名义,OpenFold 是完全开源的,并且在非常宽松的许可下提供。两者的参数都可以轻松下载并在 CC BY 4.0 下获得许可,而通过 GitHub 提供的代码在 Apache 2.0 下获得许可。这意味着任何有兴趣的人都可以将 OpenFold 用于几乎任何目的。

OpenFold 和 AlphaFold 之间最明显的区别在于,虽然 AlphaFold 是为 JAX 工作流开发的,但 OpenFold 的所有代码都基于 PyTorch 环境。OpenFold 也是可训练的,这意味着可以为专业研究创建变体,这与 AlphaFold 不同。

  • https://openfold.io/

  • https://github.com/aqlaboratory/openfold

  • https://colab.research.google.com/github/aqlaboratory/openfold/blob/main/notebooks/OpenFold.ipynb

  • https://huggingface.co/nz/OpenFold

Uni-Fold

深势科技重磅推出蛋白质结构预测工具 Uni-Fold,成功复现曾引起生物学界轰动的 AlphaFold2 的全规模训练,并开源训练代码与推理代码。

Uni-Fold 克服了 AlphaFold2 未开源训练代码、硬件支持单一、模型不可商用等局限性,在训练与推理环节进行了 NVIDIA GPU上的适配、性能优化及功能完善等工作,为更多人参与推动领域进一步发展提供了基础。

  • https://github.com/dptech-corp/Uni-Fold

  • https://colab.research.google.com/github/dptech-corp/Uni-Fold/blob/main/notebooks/unifold.ipynb

Li, Z., Liu, X., Chen, W., Shen, F., Bi, H., Ke, G. and Zhang, L., 2022. Uni-Fold: An Open-Source Platform for Developing Protein Folding Models beyond AlphaFold. bioRxiv.

FastFold

蛋白质结构预测是结构生物学领域理解基因翻译和蛋白质功能的重要方法。AlphaFold 将 Transformer 模型引入了具有原子精度的蛋白质结构预测领域。然而,AlphaFold 模型的训练和推理由于其特殊的性能特点和巨大的内存消耗,既耗时又昂贵。在本文中,作者提出了 FastFold,这是一种用于训练和推理的蛋白质结构预测模型的高效实现。FastFold 包括一系列基于对 AlphaFold 性能的全面分析的 GPU 优化。同时,通过 Dynamic Axial Parallelism 和 Duality Async Operation,FastFold 实现了高模型并行缩放效率,超越现有流行的模型并行技术。实验结果表明,FastFold 将整体训练时间从 11 天减少到 67 小时,并实现了 7.5-9.5 倍的长序列推理加速。此外,我们将 FastFold 扩展到 512 个 GPU,并以 90.1% 的并行效率实现了总计 6.02 PetaFLOPs。

https://github.com/hpcaitech/FastFold

Cheng, S., Wu, R., Yu, Z., Li, B., Zhang, X., Peng, J. and You, Y., 2022. FastFold: Reducing AlphaFold Training Time from 11 Days to 67 Hours. arXiv preprint arXiv:2203.00854.

HelixFold

百度飞桨强大的高性能并行计算能力支持下,飞桨螺旋桨 PaddleHelix 生物计算团队发布了蛋白结构预测模型 HelixFold,围绕着显存峰值、训练速度、分布式策略进行了全面性能优化。通过与原版 AlphaFold2 模型和哥伦比亚大学 Mohammed AlQuraishi 教授团队基于 PyTorch 复现的 OpenFold 模型的性能对比测试显示,HelixFold 模型的训练性能相比 AlphaFold2 提升106.97%,相比 OpenFold 提升104.86%。

  • https://github.com/PaddlePaddle/PaddleHelix/tree/dev/apps/protein_folding/helixfold

Wang, G., Fang, X., Wu, Z., Liu, Y., Xue, Y., Xiang, Y., Yu, D., Wang, F. and Ma, Y., 2022. HelixFold: An Efficient Implementation of AlphaFold2 using PaddlePaddle. arXiv preprint arXiv:2207.05477.

MEGA-Fold

使用计算机高效计算获取蛋白质空间结构的过程被称为蛋白质结构预测,传统的结构预测工具一直存在精度不足的问题,直至2020年谷歌DeepMind团队提出AlphaFold2,该模型相较于传统工具预测精度大幅提升,所得结构与真实结构误差接近实验方法,但是仍存在数据前处理耗时过长、缺少MSA时预测精度不准、缺乏通用评估结构质量工具的问题。针对这些问题,高毅勤老师团队与MindSpore科学计算团队合作进行了一系列创新研究,开发出更准确和更高效的蛋白质结构预测工具MEGA-Protein。

MEGA-Protein主要由三部分组成:蛋白质结构预测工具MEGA-Fold,MSA生成工具MEGA-EvoGen和蛋白质结构评分工具MEGA-Assessement。

  • https://gitee.com/mindspore/mindscience/tree/master/MindSPONGE/applications/MEGAProtein

Liu, S., Zhang, J., Chu, H., Wang, M., Xue, B., Ni, N., Yu, J., Xie, Y., Chen, Z., Chen, M. and Liu, Y., 2022. PSP: Million-level Protein Sequence Dataset for Protein Structure Prediction. arXiv preprint arXiv:2206.12240.

基于 pLM

使用来自蛋白质语言模型 (pLM) 的嵌入作为输入

ESM-Fold

大型语言模型超越简单的模式匹配来执行更高级别的推理并生成逼真的图像和文本。虽然在较小规模上研究了针对蛋白质序列训练的语言模型,但随着规模的扩大,人们对它们对生物学的了解知之甚少。在这项工作中,研究人员训练了多达 150 亿个参数的模型,这是迄今为止要评估的最大的蛋白质语言模型。研究人员发现,随着模型的缩放,它们学习的信息能够以单个原子的分辨率预测蛋白质的三维结构。研究人员提出了 ESMFold,用于直接从蛋白质的单个序列进行高精度的端到端原子级结构预测。ESMFold 与 AlphaFold2 和 RoseTTAFold 对于语言模型可以很好理解的低困惑度序列具有相似的准确性。ESMFold 推理比 AlphaFold2 快一个数量级,从而能够在实际时间尺度上探索宏基因组蛋白的结构空间。

Lin, Z., Akin, H., Rao, R., Hie, B., Zhu, Z., Lu, W., dos Santos Costa, A., Fazel-Zarandi, M., Sercu, T., Candido, S. and Rives, A., 2022. Language models of protein sequences at the scale of evolution enable accurate structure prediction. bioRxiv.

HelixFold-single

通过人工智能的方法,从蛋白质的一级序列精准预测其三维结构,已被AlphaFold2证实可达到实验精度。但AlphaFold2的模型主要依赖多序列比对(MSA)和模版(Template)信息,而从蛋白质数据库中搜索MSA和模版又是一件非常耗时的工作,成为模型向产业界大规模推广的一个瓶颈。HelixFold-Single将自然语言处理领域的语言模型,应用在蛋白质上,构建了预训练语言模型,从3亿的无标注蛋白质数据中提取信息,建模蛋白质之间的关系,从而将MSA同源信息隐式的学习在语言模型中,进而有效地替代MSA信息检索模块,极大地提升了结构预测的速度。在精度不输AlphaFold2的基础上,效率最多提升近千倍 。

  • https://github.com/PaddlePaddle/PaddleHelix/tree/dev/apps/protein_folding/helixfold-single

Fang, X., Wang, F., Liu, L., He, J., Lin, D., Xiang, Y., Zhang, X., Wu, H., Li, H. and Song, L., 2022. HelixFold-Single: MSA-free Protein Structure Prediction by Using Protein Language Model as an Alternative. arXiv preprint arXiv:2207.13921.

OmegaFold

AI预测蛋白质3D结构,仅通过单条蛋白序列就能搞定。也就是说,AI预测蛋白质结构,可以不需要蛋白质进化过程中的同源信息。一些人工设计的蛋白质药物和工业合成用酶,也可以通过AI预测3D结构,确定其对人体的功能。

达成这一成就的AI算法名为OmegaFold,在最近的全球持续蛋白质预测竞赛中,整体预测能力已经与DeepMind此前开发的AlphaFold2,和华盛顿大学开发的RoseTTAFold不相上下,甚至有些指标优于后两者。

研究成果来自国内AI创新药物公司华深智药,一家成立不到一年的中国初创企业,孵化自张亚勤旗下的清华大学智能产业研究院。

  • https://github.com/HeliXonProtein/OmegaFold

  • https://colab.research.google.com/github/sokrypton/ColabFold/blob/main/beta/omegafold.ipynb

Wu, R., Ding, F., Wang, R., Shen, R., Zhang, X., Luo, S., Su, C., Wu, Z., Xie, Q., Berger, B. and Ma, J., 2022. High-resolution de novo structure prediction from primary sequence. bioRxiv.

IgFold

抗体的结合是由一组6个loops的结构决定,这个6个loops构成互补决定族(CDR)。这些CDR loops的精准建模可以深入了解这些结合机制和提高使特定抗体的合理设计成为可能。

5个CDR loops倾向于采用通过序列相似性可以有效地进行预测,然而,重链的第3个CDR loop(CDR H3),由于其在序列和长度上的增加的多样性,不能通过序列相似性有效的预测,已被证明是对模型是很大的挑战。重链和轻链之间界面上的H3 loops的位置,使其构象依赖于链间方向(inter-chain orientation),鉴于H3 loop在结合中的核心作用,预测H3 loops结构的效果对于了解抗体-抗原相互作用,实现抗体的合理设计非常重要。

JOHNS HOPKINS大学发表了可以快速预测抗体结构的IgFold深度学习方法,其准确率可以与AlphaFold2媲美。IgFold先从一个预训练的语言模型提取预序列表征(该模型在558M自然抗体序列上进行的训练),然后通过图网络直接预测backbone atoms坐标。其预测结构质量与其他工具类似或更好(包括AlphaFold),且预测所需时间不到1分钟。在这个时间尺度上进行准确的结构预测,使得以前不可行的调研与验证方法成为可能。

同时为了证明IgFold的能力,作者预测了105K配对的8个抗体序列的结构,将观察到的抗体结构空间扩大了40倍以上。

  • https://github.com/Graylab/IgFold

  • https://colab.research.google.com/github/Graylab/IgFold/blob/main/IgFold.ipynb

Ruffolo, J.A. and Gray, J.J., 2022. Fast, accurate antibody structure prediction from deep learning on massive set of natural antibodies. Biophysical Journal, 121(3), pp.155a-156a.

参考资料

  • Jumper, J., Evans, R., Pritzel, A. et al. Highly accurate protein structure prediction with AlphaFold. Nature (2021). 

    https://doi.org/10.1038/s41586-021-03819-2

  • Accurate prediction of protein structures and interactions using a three-track neural network. Science  15 Jul 2021:eabj8754

    DOI: 10.1126/science.abj8754

  • Edich, M., Briggs, D.C., Gao, Y., Kippes, O. and Thorn, A., 2022. The impact of AlphaFold on experimental structure solution. Faraday Discussions.

  • https://github.com/sacdallago/folding_tools

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/67861.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

人工智能内容生成元年—AI绘画原理解析

AIGC体验生成 团队模型、论文、博文、直播合集,点击此处浏览 一、背景 2022年AIGC(AI生成内容)焕发出了勃勃生机,大有元年之势,技术与应用迭代都扎堆呈现。在各种新闻媒体处可以看到诸多关于学术前沿研究,…

AI for Science:人工智能改变化学领域,机器学习范式加速化学物质发现

来源:机器之心 本文约4500字,建议阅读9分钟 本文介绍了人工智能在化学领域的发展。 随着人工智能技术兴起,在化学领域,传统的基于实验和物理模型的方式逐渐与基于数据的机器学习范式融合。越来越多的用于计算机处理数据表示被开发…

Replika:AI智能聊天机器人

【产品介绍】 Replika,这个名字可能有点拗口,但如果你知道这是复制品Replica的同音变体,你即刻能明白这个产品的定位了。官方Luka公司定义它是你的AI朋友,默默学习你,最终成为你的复制品。它不像现在市面上各大厂的AI助…

给女朋友做个聊天机器人,这样就能安心写代码了

这是第 404 次女友因为我没有及时回微信而和我生气了 惹祸的是我,受伤的确是钱包…… 但是,我并不后悔 那一局王者荣耀,因为没有回微信,我完成了五杀 carry 全场 那一局刺激战场,因为没有回微信,我绝地…

大模型帮陶哲轩解题、证明数学定理:数学真要成为首个借助AI实现突破的学科了?...

来源:机器之心报道 编辑:张倩、蛋酱 数学将成为第一门借助AI实现重大突破的学科? 去年 2 月份,DeepMind 发布了编程辅助利器 AlphaCode。它使用人工智能技术来帮助程序员更快地编写代码,可以自动完成代码、提供代码建议…

对话三维家创始人蔡志森:AIGC让家装从“填空题”变成了“选择题”

(图片来源:Pixels) 三维家讲透了一个道理:数字化企业如何利用已有优势构建AGI能力。 数科星球原创 作者丨苑晶 编辑丨大兔 AIGC火热半年有余,人们已对ChatGPT不再陌生。 从互联网巨头再到上一代AI企业,…

人工智能图片素材高清,机器人图片卡通 素材

1、做一个人工智能的ppt需要哪些素材 不能理解你的问题。ppt仅仅是一个做幻灯的软件,可以插入图片、动画、音乐、过场等幻灯的功能,还谈不上有人工智能的能力。人工智能需要有更为强大的类似人脑思维的能力,简单的说人工智能是可以思考的机器…

一键生成文章的软件有哪些?将这几个不错的软件分享给你

大家平时遇到文章不会写,或者在写文章的时候断了思路不知该如何进行的时候,怎么办呢?其实大家可以使用一些能够自动生成文章的软件。那么输入文章标题自动生成文章的软件有哪些,你们知道吗?下面我就来为大家推荐这几款…

论文ai生成-一键生成论文的软件

ChatGPT自动写论文 ChatGPT可以使用生成的文本来帮助撰写学术论文,其中包括文章的大纲、段落和句子。但是,它并不会像一个完全替代人的写作工具一样让你“自动”写作。 虽然ChatGPT可以生成相当准确的语言,但它并不完美,它并不能…

一键生成mybatis

一键生成mybatis工具 1.mybatis-generator 步骤: 步骤1&#xff1a;修改pom.xml&#xff0c;添加mybatis-generator-maven-plugin插件 <!-- mybatis代码生成插件 --><plugin><groupId>org.mybatis.generator</groupId><artifactId>mybatis-ge…

学习实践-Alpaca-Lora (羊驼-Lora)(部署+运行+微调-训练自己的数据集)

Alpaca-Lora模型GitHub代码地址 1、Alpaca-Lora内容简单介绍 三月中旬&#xff0c;斯坦福发布的 Alpaca &#xff08;指令跟随语言模型&#xff09;火了。其被认为是 ChatGPT 轻量级的开源版本&#xff0c;其训练数据集来源于text-davinci-003&#xff0c;并由 Meta 的 LLaMA …

aiXcoder私有化部署与大模型个性化训练:如何将AIGC应用到您的企业中?

现代企业的成功转型离不开创新&#xff0c;而创新离不开人工智能等前沿技术的推动。随着全球经济的发展和竞争的日益激烈&#xff0c;企业需要更快、更高效地交付新产品、服务和解决方案&#xff0c;以更好地满足客户需求并保持市场竞争力&#xff0c;应用研发效率提升企业竞争…

【AI人工智能】 最强大的语言模型镜像 使用起来真的太方便了! 真的要解放代码思维了吗?

&#x1f680; 个人主页 极客小俊 ✍&#x1f3fb; 作者简介&#xff1a;web开发者、设计师、技术分享博主 &#x1f40b; 希望大家多多支持一下, 我们一起进步&#xff01;&#x1f604; &#x1f3c5; 如果文章对你有帮助的话&#xff0c;欢迎评论 &#x1f4ac;点赞&#x1…

Segment Anything Meta开源分割一切模型,为进军元宇宙更近一步

上期图文教程,我们分享了Segment Anything分割一切模型的原理,Segment Anything Model 是一种以最少的人工干预构建全自动可提示图像分割模型的方法。模型提供了一键分割图片的方法,当然模型也可以运行我们输入一个坐标点,一个输入框,或者输入一个对象的文本来分割输入的对…

ubuntu(虚拟机)解决git速度慢的问题

在家用的是电信网&#xff0c;每次git大型项目总是失败&#xff0c;甚是苦恼&#xff0c;解决了好几次都失败了&#xff0c;终忍受不了&#xff0c;下定决心干掉它。 git clone特别慢是因为github.global.ssl.fastly.net域名被限制了。 只要找到这个域名对应的ip地址&#xf…

两行配置解决github官网访问速度慢的问题(速度贼快!)

文章目录 前言一、配置步骤1.1 CMD查看网络连通情况1.2 获取Github相关网站的ip 二、配置本机host地址三、Github官网总结 前言 小伙伴们会不会因为github官网速度慢而烦恼呢&#xff0c;想上班去摸鱼都不方便&#xff0c;下面小编带你快速解决github访问速度慢的问题。 一、配…

GitHub访问速度慢

github 是全世界最流行的开源项目托管平台,其代表的开源文化从根本上改变了软件开发的方式.基本上所有的需求都能从 github 上或多或少找到现成的实现方案,再也不用重头开始造轮子而是自定义轮子! 然而,有时候国内访问 https://github.com/ 速度太慢,如何加速访问 github.com …

机器人开发--Cartographer详细介绍

机器人开发--Cartographer详细介绍 1 介绍1.1 概述1.2 评价1.3 特点 2 框架官方 3 代码结构heimazaifei 解读linyicheng 解读Xiaotu 解读cartographer_ros地图构建器map_builderLocal SLAMGlobal SLAM 赵锴 解读地图设计匹配方法一阶段解算二阶段解算后端如何检测回环检测回环后…

《恒盛策略》人工智能概念回落,青木股份等跌超10%

近来强势的人工智能概念28日盘中回落走低&#xff0c;截至发稿&#xff0c;青木股份跌超13%&#xff0c;光云科技跌超12%&#xff0c;彩讯股份、宝兰德跌超10%&#xff0c;财富趋势、昆仑万维、当虹科技跌约9%&#xff0c;同花顺跌超8%&#xff0c;寒武纪跌逾7%。 消息面上&…

变强速度超出预期,安全问题逐渐变大,多国停用ChatGPT

前段时间&#xff0c;小编向大家介绍过&#xff0c;随着最近GPT-4语言模型的正式投入使用&#xff0c;ChatGPT也带来了全新的插件——网络浏览器和代码解释器&#xff0c;赋予ChatGPT使用工具、联网、运行计算的能力。 更新后&#xff0c;跟据全球媒体的反馈来看&#xff0c;GP…