韩国版AlphaFold?深度学习模型AlphaPPIMd:用于蛋白质-蛋白质复合物构象集合探索

在生命的舞台上,蛋白质扮演着不可或缺的角色。它们是生物体中最为活跃的分子,参与细胞的构建、修复、能量转换、信号传递以及无数关键的生物学功能。同时,蛋白质的结构与其功能密切相关,而它们的功能又通过与蛋白质、多肽、核苷酸以及各种小分子的复杂相互作用来实现。这种蛋白质-蛋白质相互作用 (PPI) 是细胞内许多生物过程的核心,从细胞信号传导到免疫反应,再到细胞周期的调控,无不涉及 PPI。

然而,人们目前对蛋白质三维结构及其相互作用特性的了解仍不够全面。传统的实验技术,如 X 射线晶体学和冷冻电镜,虽然能够提供高分辨率的蛋白质结构信息,但耗时且成本高昂, 且在解析动态过程和低丰度蛋白质时面临挑战。这极大限制了人们对蛋白质功能和相互作用机制的深入理解,进而影响了药物设计和蛋白质工程的发展。

针对于此,延世大学王建民博士及其合作者通过将深度学习与生成式 AI 相结合,利用基于 Transformer 的生成神经网络学习探索蛋白质-蛋白质复合物的构象集合, 从多个分子动力学 (MD) 轨迹中学习了影响蛋白质-蛋白质复合物构象和动力学机制的关键残基,并为蛋白质-蛋白质结合提供了机理性见解。

论文地址:
https://doi.org/10.1101/2024.02.24.581708

AlphaPPIMd 模型:基于分子动力学模拟,以自注意力机制为核心

研究团队 barnase-barstar 复合物轨迹集作为数据集。 首先从蛋白质数据库 (Protein Data Bank, PDB) 中下载了 barnase-barstar 复合物的晶体结构,通过去除配体和结晶水,提取 A 链和 D 链作为初始复合物结构。然后,研究人员通过 AmberTools 中的 tleap 模块添加缺失的氢原子,并通过加入 Na+ 和 Cl- 离子进行中和,在 12Å 的 TIP3P 水分子周期边界盒中进行溶剂化。最后,利用 AmberTools 中的 tleap 模块和 AMBER ff14SB 力场编制了系统的拓扑和坐标文件。

随后,研究团队使用分子动力学模拟系统,通过 Langevin 积分器进行了 500 步典型的 NVT 模拟,使得能量最小化。然后,在 300K 下通过 10,000 步 NPT 模拟来进一步达到平衡状态,并使用粒子网络 Ewald 算法,计算远程静电的相互作用,将直接空间相互作用的截断值设为 1nm,仿真时间步长设置为 2fs,同时还设置了 SHAKE 算法来约束所有涉及氢原子的键的长度,随即进行了 6 次独立的 100ns 分子动力学模拟。所有模拟均采用 OpenMM 7.7 进行。

在完成分子动力学模拟后,研究团队基于 Transformer 构建了 AlphaPPIMd 模型,利用深度生成模型来捕捉传统分子动力学难以分析的蛋白质构象状态。 AlphaPPImd 框架的核心是自注意力机制,可以从 MD 轨迹中捕获影响蛋白-蛋白复合物构象的关键氨基酸残基对。

AlphaPPImd 体系结构

首先, AlphaPPImd 框架会对蛋白-蛋白复合物的 MD 轨迹进行预处理,得到两条链的序列长度、序列组成和氨基酸残基类型,并通过计算轨迹中选定残基的 Φ,Ψ 角度,以表示不同的构象状态。(如上图中粉色与绿色虚线框内所示)

其次, 研究人员通过向量模块 (embedding module) 将蛋白-蛋白复合物 MD 轨迹的每一帧输入 AlphaPPImd 的编码器模块,该模块包含多头自注意力机制 (multi-head self-attention mechanism)、注意力分数 (attention score) 和特征优化模块 ( feature optimization module)。AlphaPPImd 的解码器用于学习和捕获蛋白质复合物不同类型和位置的残基对构象的贡献。

最后, 预测模块迭代生成下一帧的基态,Modeller 可根据扩展的基态编码轨迹重构蛋白质-蛋白质复合物的构象模型。

AlphaPPImd 解码器模块中的多头自注意层学习了特定残基对之间的相互作用,可以将注意力函数视为查询 (Q) 与键值对 (K-V) 输出之间的映射。AlphaPPImd 采用蛋白质复合物残基嵌入作为 Q,将全局蛋白质复合物特征用作 K 和 V,并通过使用 Q 和 K 计算注意力权重。其计算公式如下:

与此同时,该研究将 barnase-barstar 复合物的 6 个独立的 100ns MD 轨迹分为 300 个基元,每个基元由 1,000 帧组成。MD 轨迹经过预处理,仅保留蛋白质原子。每个 MD 运行都提供了一组有限的蛋白质-蛋白质复合物物理快照。轨迹中的每一帧都表示为 Φ,Ψ 编码的基态。因此,蛋白质-蛋白质复合物的扭转状态被降维为一种文本表示形式, 保留了动力学的主要次要特征。

研究结论:平均训练精度高达 0.995,可推广向更多蛋白质复合物

barnase-barstar 复合物由两条不同的链组成,共有 197 个残基组成 (barnase 链:108 个残基,barstar 链:89 个残基)。该研究通过 KMeans 算法将点位划分为 4 个聚类,标记为 0(下图中的紫色)、1(下图中的深蓝色)、2(下图中的绿色)、3(下图中的黄色),然后记录并存储每个簇的质心,以便从基态编码的扭转状态重建 barnase-barstar 复合物的全原子模型。

barnase-barstar 复合物的 Ramachandran 图

该研究将每一帧的轨迹转换成一个字符向量,每个字符向量由对应于 4 个簇的 4 个符号组成。最后,该研究对 barnase-barstar 复合体的 MD 轨迹数据集中的所有 300 个基元,执行了类似的表示过程。

综上所述,barnase-barstar 复合物是一种异二聚体,两条链中编码的残基基态差异明显。 这意味着,barnase-barstar 复合物在生成新的基态编码框架,以及重建单个蛋白质的构象模型方面存在显著差异。

生成的 barnase-barstar 复合物(浅蓝色)构象与参考构象的重叠

研究表明,AlphaPPImd 模型的平均训练精度为 0.995,平均验证精度为 0.999。 虽然 AlphaPPImd 很快就获得了稳定的性能,但为了进一步完善 Transformer 模型并丰富模型学习到的 MD 构象分布,该研究使用了多个 MD 轨迹作为数据集。例如,该研究通过从测试集的轨迹中随机选取一帧作为输入,并利用训练后的 AlphaPPImd 框架生成 100 个基态编码帧。
结果表明,该模型能够成功地对构象进行采样和展开, 并且能够正确执行 Φ、Ψ 的二面体约束。

蛋白质-蛋白质复合物构象的 RMSD 分布

该研究还从 AlphaPPImd 模型生成的 1,000 个 barnase-barstar 复合物构象中,选择了 4 个 RMSD 接近 2Å 的代表性构象。研究结果表明,AlphaPPImd 生成的蛋白质复合物构象模型与参考晶体结构更接近, 准确度更高(均方根偏差 < 2Å)且可接受性更高(DockQ ≥ 0.23)。

可解释性分析

此外,AlphaPPImd 的注意力机制捕获了关键残基之间的注意力权重,并提供了关于蛋白质-蛋白质结合的机制见解。

研究表明,AlphaPPImd 模型捕获的关键残基主要位于蛋白质相互作用、环和螺旋的接口处,这意味着,深度生成模型从 barnase-barstar 复合物的 MD 轨迹中捕获了影响其动力学和构象的关键残基, 可用于补充 MD 结果。同时,AlphaPPImd 模型捕获的关键残基主要位于 Mdm2-p53 相互作用界面,这也证明该模型可以推广到其他蛋白质-蛋白质复合物。

AI 蛋白质预测:从 AlphaFold 到百家争鸣

早在 2016 年,AlphaGo 名声大噪之后,DeepMind 团队就开始了针对蛋白质折叠问题的研究。
在 2018 年底的第 13 届 CASP (Critical Assessment of protein Structure Prediction) 中,AlphaFold 在 98 名参赛者中名列榜首,准确地从 43 种蛋白质中预测出了 25 种蛋白质的结构。2020 年,AlphaFold 2 面世,实现了蛋白质单体结构的高准确度预测。2021 年 10 月,DeepMind 发布了一个名为 AlphaFold-Multimer 的更新,其基于 AlphaFold 2 进行了拓展,可以对多种蛋白质的复合物进行建模。2024 年 5 月 8 日,AlphaFold 3 再次惊艳世人,将预测范围从蛋白质带到广泛的生物分子。

早在 AlphaFold 2 推出之际,中科院院士施一公就曾对媒体表示:「依我之见,这是人工智能对科学领域最大的一次贡献,也是人类在 21 世纪取得的最重要的科学突破之一,是人类在认识自然界的科学探索征程中一个非常了不起的历史性成就。」

有了 AlphaFold 的珠玉在前,AI 在蛋白质设计领域引发的产业革命悄然而至。

2023 年,全球首个 AI 蛋白质生成大模型 NewOrigin(中文名「达尔文」)在世界制造业大会上正式亮相。 据介绍,NewOrigin 大模型基于条件生成机制,联合使用 AI、分子动力学、量子计算、湿实验等多维反馈机制,可高精度生成蛋白质序列、蛋白质功能、蛋白质知识表示等多种模态蛋白质内容,完成亲和力、稳定性、活性、表达量等多维度任务,满足真实的产业应用所需。

2022 年,华盛顿大学医学院的生物学家在 Science 上连发两篇论文,介绍了他们的重大发现。研究者表示,使用机器学习可以在几秒钟内创建出蛋白质分子。 而在以前,这个时间会长达几个月。创造出自然界中没有的蛋白质,有助于疫苗研发、加快治疗癌症的研究、碳捕获工具研发、可持续生物材料研发等。

毫无疑问,AI 蛋白结构预测能够让我们更好地认识和理解蛋白质,进而理解生命。但是,仅仅只是认识和理解是远远不够的,科学家们未来需要通过 AI 预测蛋白质来解决医疗领域的实际问题,例如按需求改造蛋白质、甚至从头设计自然界不存在的蛋白质。道阻且长,期待 AI 能够在生命科学探索中带来更多惊喜。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/348653.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

新疆在线测宽仪配套软件实现的9大功能!

在线测宽仪可应用于各种热轧、冷轧板带材的宽度尺寸检测&#xff0c;材质不限&#xff0c;木质、钢制、铁质、金属、纸质、塑料、橡胶等都可以进行无损非接触式的检测&#xff0c;在各式各样的产线应用中&#xff0c;有些厂家&#xff0c;需要更加详尽完备的分析信息&#xff0…

[2024-06]-[大模型]-[DEBUG]- ollama webui 11434 connection refused

报错&#xff1a;host.docker.internal:11434 ssl:default [Connection refused] 将/etc/systemd/system/ollama.service中加上如下红框两行 Environment"OLLAMA_HOST0.0.0.0" Environment"OLLAMA_ORIGINS*"然后 systemctl daemon-reload systemctl rest…

vue3 监听器,组合式API的watch用法

watch函数 在组合式 API 中&#xff0c;我们可以使用 watch 函数在每次响应式状态发生变化时触发回调函数 watch(ref,callback&#xff08;newValue,oldValue&#xff09;&#xff0c;option:{}) ref:被监听的响应式量&#xff0c;可以是一个 ref (包括计算属性)、一个响应式…

SpringMVC:拦截器(Interceptor)

1. 简介 拦截器&#xff08;Interceptor&#xff09;类似于过滤器&#xff08;Filter&#xff09; Spring MVC的拦截器作用是在请求到达控制器之前或之后进行拦截&#xff0c;可以对请求和响应进行一些特定的处理。拦截器可以用于很多场景下&#xff1a; 1. 登录验证&#xf…

修改版的VectorDBBench更好用

原版本VectorDBBench的几个问题 在这里就不介绍VectorDBBench是干什么的了&#xff0c;上官网即可。 1.并发数设置的太少 2.测试时长30秒太长 3.连接milvus无用户和密码框&#xff0c;这个是最大的问题 4.修改了一下其它参数 由于很多网友发私信问一些milvus的相关技术问…

php redis分布式锁

一&#xff0c;概念 在PHP中实现分布式锁通常可以使用数据库、缓存系统&#xff08;如Redis&#xff09;或者其他中央存储系统来保证在分布式系统中的数据一致性与同步。秒杀下单、抢红包等等业务场景&#xff0c;都需要用到分布式锁。 常规方案大概有七中 方案一&#xff1a;…

defer+recover机制处理错误

问题&#xff1a;多个协程工作&#xff0c;其中一个协程出现panic&#xff0c;导致程序崩溃 解决办法&#xff1a;利用deferrecover捕获panic进行处理&#xff0c;即使协程出现错误&#xff0c;主线程仍然不受影响可以继续执行 package mainimport ("fmt""tim…

23种设计模式之组合模式

组合模式 1、定义 组合模式&#xff1a;组合多个对象形成树状结构以表示具有部分-整体关系的层次结构。组合模式让客户端可以统一对待单个对象和组合对象 2、组合模式结构 Component&#xff08;抽象构件&#xff09;&#xff1a;可以是接口或抽象类&#xff0c;为叶子构件…

JAVA:通过电信ctg.ag.sdk从电信物联平台AIOT获取设备上报数据的简单示例

一、问题场景 物联设备比如NB设备通过NB协议将数据传到电信平台后&#xff0c;我们的应用服务如何从电信平台获取可用的上报数据。以下通过电信开发者平台提供的SDK来简单演示下整个过程。 二、使用电信 SDK进行开发 电信AIOT物联平台提供了两种方式获取平台数据&#xff0c…

Mac 下载并激活IDEA

1.https://3.jetbra.in 打开这个网站,点击第一个网速比较快的连接 2.在新页面顶部有一个蓝色的下载链接文字< jetbra.zip(20220801) >点击下载 3.步骤2打开的页面不要关闭后面还有用 4.在idea官网下载idea对应的版本 https://www.jetbrains.com/idea/download/other.htm…

视频格式转换avi格式怎么弄?分享视频转换方法

视频格式转换avi格式怎么弄&#xff1f;AVI作为一种广泛支持的视频格式&#xff0c;能够在多种设备和播放器上顺畅播放&#xff0c;确保我们的视频内容能够无障碍地分享给朋友或上传至各大平台。其次&#xff0c;AVI格式通常具有较好的兼容性&#xff0c;能够避免格式转换过程中…

【方法】Word文档如何添加“打开密码”?

Word文档是很常用的办公文档&#xff0c;对于重要的文档&#xff0c;不想被他人随意查看&#xff0c;或者只有指定的人可以查看&#xff0c;我们可以给Word文档设置密码保护&#xff0c;这样只有知道密码的人才可以打开文档。 下面分享两种Word文档添加“打开密码”的方法&…

SAP 价格金额信息控制

1)migo / mb51/mb51/mb59 关于价格和金额的显示&#xff0c;需要权限控制&#xff0c;当权限对象F_BKPF_BUK,检查对应【公司代码】 和 ACTVT有03’的权限&#xff0c;如果没有03的权限&#xff0c;对应行的价格和金额显示为空 关于价格和金额的显示&#xff0c;需要权限控制&a…

媲美Sora,免费使用!带物理模拟的,文生视频模型

6月13日&#xff0c;知名3D建模平台Luma AI发布最新文生视频模型Dream Machine&#xff0c;向所有用户免费开放使用。 Dream Machine除了支持文本之外&#xff0c;还可使用图片作为引导来生成视频&#xff0c;其生成的视频质量、动作一致性、色彩、光影、饱和度、运镜等方面&a…

倾斜摄影优化之重:轻量化

老子云倾斜摄影轻量化 1、支持全网多端流畅展示 2、支持私有化部署 3、一键轻量化G级模型 4、多种精度选择 5、支持二次开发 &#xff08;1&#xff09;、压缩可达98%以上 &#xff08;2&#xff09;、多种精度任选&#xff1a;普清、标清、高清、超清 &#xff08;3&am…

# RocketMQ 实战:模拟电商网站场景综合案例(十一)

RocketMQ 实战&#xff1a;模拟电商网站场景综合案例&#xff08;十一&#xff09; 一、RocketMQ 实战&#xff1a;模拟电商网站场景综合案例-- web 端项目开发 1、在 shop-order-web 工程模块中&#xff0c;创建 Controller 类 OrderControllre.java /*** shop\shop-order…

“人事助理转产品经理”历险记

​好久没写就业喜报了 去年太忙&#xff0c;年后了&#xff0c;必须给大家把同学们就业的情况梳理一下分享出来。希望对大家有所帮助。 同学档案 原岗位&#xff1a;HR 地点&#xff1a;西安 工作年限&#xff1a;2年 转岗级别&#xff1a;中级产品经理 转岗工资&#xff1…

东胜物流软件 GetProParentModuTreeList SQL注入漏洞复现

0x01 产品简介 东胜物流软件是青岛东胜伟业软件有限公司一款集订单管理、仓库管理、运输管理等多种功能于一体的物流管理软件。该公司初创于2004年11月(前身为青岛景宏物流信息技术有限公司),专注于航运物流相关环节的产品和服务。东胜物流信息管理系统货代版采用MS-SQLser…

Windows同一文件夹下支持大小写同名文件

举例&#xff1a;同一文件目录下需要存在A.java, a.java, Windows是不支持的&#xff0c;这时候需要建一个Linux子系统的文件夹 创建教程 1、在启用或关闭Windows功能下面找到 适用于Linux系统的Windows子系统 2、cmd 执行命令 fsutil file SetCaseSensitiveInfo 文件夹路径 …

二十三、生成帮助文档

二十一、Java工具类的创建 二十二、Jar包制作及使用 这一篇开始学习如何生成帮助文档。为什么要学习生成帮助文档&#xff1f; 1、工具类已经制作好了&#xff0c;Java工具类的创建的类是一个.java文件&#xff0c;编译后成.class文件看不懂&#xff0c;所以需要对应的帮助文档…