论文DiffBP: generative diffusion of 3D molecules for target protein binding

研究背景

在药物发现中,生成能与特定蛋白质结合的分子至关重要但极具挑战。以往的工作大多采用自回归方式逐个生成原子的元素类型和三维坐标,但在真实分子系统中,原子间的相互作用是全局性的,基于能量考虑,概率建模应基于联合分布而非顺序条件分布,因此自回归方法可能违背物理规则,导致生成的分子性质不佳。

研究方法 

  1. DiffBP 模型
    • 这是一种生成扩散模型,以非自回归的方式在全原子水平上利用目标蛋白作为上下文约束来生成分子的三维结构。
    • 给定一个指定的三维蛋白质结合位点,该模型使用等变网络对整个分子的元素类型和三维坐标进行去噪。
    • 具体包括对连续位置的扩散(通过向原子坐标添加噪声并在去噪过程中恢复)、离散类型的扩散(采用吸收扩散模型处理原子元素类型)、等变图去噪器(利用 EGNN 学习转移分布)等操作。
    • 模型在优化过程中有多个损失函数,包括连续位置去噪损失、离散类型去噪损失、避免结合交叉的损失和其他属性重建损失等。在生成去噪过程中,还涉及原子位置和元素类型的生成方法,以及预生成模型来处理分子质心和原子数量的问题。

基于机器学习的分子设计面临的挑战

  1. 数据需求
    • 开发有效的机器学习方法需要大量数据,尽管现在这样的数据逐渐可用,但仍然是一个障碍。
  2. 任务复杂性
    • 复杂的蛋白质结合位点:蛋白质结合位点作为条件背景很复杂,它不仅涉及目标蛋白质的三维几何结构,还包括氨基酸类型等其他信息,这些都必须考虑才能生成高亲和力的分子。
    • 广泛的分布支持集:分子化学和坐标的期望分布有大量的支持集。与构象生成任务不同,作为二维图形约束的化学式是未知的,需要精心设计的模型来捕捉元素类型、连续三维坐标以及其他化学性质或几何形状之间错综复杂的耦合。
    • 分子的几何对称性:在物理三维空间中,分子存在包括欧几里得群的平移和旋转在内的几何对称性,这意味着如果对结合位点进行对称操作,生成的分子应该进行相应的旋转或平移。

 

这张表格(Table 2)比较了由不同方法(3DSBDD、Pocket2Mol、GraphBP 和 DiffBP)生成的分子的其他类药特性。具体特性如下:

  1. 药物亲脂性效率(QED)

    • 3DSBDD:0.3811
    • Pocket2Mol:0.5106(最高)
    • GraphBP:0.3830
    • DiffBP:0.4431
  2. 合成可及性(SA)

    • 3DSBDD:0.5185
    • Pocket2Mol:0.5430(最高)
    • GraphBP:0.4828
    • DiffBP:0.5377
  3. 相似度(Sim)

    • 3DSBDD:0.3485
    • Pocket2Mol:0.3485
    • GraphBP:0.2707(最低)
    • DiffBP:0.3290
  4. 配体 - 蛋白特异性关键(LPSK)

    • 3DSBDD:0.6678
    • Pocket2Mol:0.8134(最高)
    • GraphBP:0.5961
    • DiffBP:0.7042

加粗的数值是在各项特性中排名前两位的指标。总体来看,Pocket2Mol 在 QED、SA 和 LPSK 这三个特性上表现突出,GraphBP 在 Sim 特性上表现较好,而 DiffBP 在各项特性上的表现较为均衡。

 

 

 

 

这张表格(Table 1)比较了不同方法生成的分子在亲和力分数指标上的表现。表格中涉及的方法包括 3DSBDD、Pocket2Mol、GraphBP 和 DiffBP,评估指标包括分子大小比例(Ratio)、平均结合间隙百分比(MPBG)和配体效率(LE),并且按照小分子(Small)、中分子(Medium)、大分子(Large)和总体(Overall)进行了分类。

小分子(Small)

  • 3DSBDD:分子比例为 41.45%,MPBG 为 27.92%,LE 为 4.90%。
  • Pocket2Mol:分子比例为 36.62%,MPBG 为 25.18%,LE 为 4.10%。
  • GraphBP:分子比例为 27.72%,MPBG 为 35.16%,LE 为 5.19%。
  • DiffBP:分子比例为 5.22%,MPBG 为 17.61%,LE 为 10.25%。

中分子(Medium)

  • 3DSBDD:分子比例为 54.06%,MPBG 为 19.78%,LE 为 14.84%。
  • Pocket2Mol:分子比例为 59.02%,MPBG 为 5.38%,LE 为 32.53%。
  • GraphBP:分子比例为 32.03%,MPBG 为 18.68%,LE 为 15.30%。
  • DiffBP:分子比例为 75.19%,MPBG 为 2.36%,LE 为 40.20%。

大分子(Large)

  • 3DSBDD:分子比例为 4.48%,MPBG 为 -7.53%,LE 为 48.56%。
  • Pocket2Mol:分子比例为 4.36%,MPBG 为 -11.21%,LE 为 75.42%。
  • GraphBP:分子比例为 37.97%,MPBG 为 -10.13%,LE 为 60.21%。
  • DiffBP:分子比例为 19.59%,MPBG 为 -4.11%,LE 为 52.64%。

总体(Overall)

  • 3DSBDD:MPBG 为 21.92%,LE 为 12.22%。
  • Pocket2Mol:MPBG 为 23.98%,LE 为 29.54%。
  • GraphBP:MPBG 为 1.88%,LE 为 41.07%。
  • DiffBP:MPBG 为未提供,LE 为未提供。

总结

  • 在小分子方面,3DSBDD 和 Pocket2Mol 生成的小分子比例较高,而 DiffBP 生成的小分子比例最低,但 DiffBP 的小分子在配体效率方面表现较好。
  • 在中分子方面,DiffBP 生成的中分子比例最高,且在 MPBG 和 LE 指标上表现出色。
  • 在大分子方面,GraphBP 和 Pocket2Mol 生成的大分子比例较高,但 DiffBP 的大分子在 MPBG 和 LE 指标上相对更优。
  • 总体来看,DiffBP 在中分子和大分子的配体效率上表现突出,Pocket2Mol 在小分子和大分子的配体效率上也有较好表现,而 GraphBP 在总体的配体效率上较高。

 

这张图片展示了两组核密度估计(KDE,Kernel Density Estimation)图,分别比较了生成样本(Generation)和活性分子(Actives)对两种不同靶点(AKT1 和 CDK)的结合亲和力(binding affinity)分布。

图(a):AKT1 靶点

  • 蓝色柱状图(Actives)
    • 平均结合亲和力(Affinity (Act))为 5.707,标准差为 0.571。
    • 结合亲和力主要集中在 5 - 7 之间,形成一个高峰。
  • 橙色柱状图(Generation)
    • 平均结合亲和力(Affinity (Gen))为 5.705,标准差为 0.724。
    • 结合亲和力分布较为分散,从 3 到 9 都有分布,但在 5 - 7 之间有一个相对较高的峰。

图(b):CDK 靶点

  • 蓝色柱状图(Actives)
    • 平均结合亲和力(Affinity (Act))为 4.358,标准差为 0.461。
    • 结合亲和力主要集中在 4 - 6 之间,形成一个高峰。
  • 橙色柱状图(Generation)
    • 平均结合亲和力(Affinity (Gen))为 5.171,标准差为 0.818。
    • 结合亲和力分布较为分散,从 3 到 9 都有分布,但在 5 - 7 之间有一个相对较高的峰。

总体分析

  • 对于 AKT1 靶点,活性分子和生成样本的平均结合亲和力非常接近,但生成样本的分布更为分散。
  • 对于 CDK 靶点,生成样本的平均结合亲和力高于活性分子,且生成样本的分布也更为分散。

这些图表可能用于评估某种分子生成方法在生成针对特定靶点的分子时的效果,通过比较生成样本和已知活性分子的结合亲和力分布,可以判断生成方法的有效性和准确性。

 

 

张图片展示了两个 t - SNE(t - 分布邻域嵌入)图,分别用于比较针对 AKT1(图 a)和 CDK2(图 b)的生成分子、随机选择的分子和活性分子。以下是详细的分析:

1. 总体布局

  • 图中使用了 t - SNE 算法将高维数据降维到二维平面上进行可视化。
  • 每个图中包含三种类型的分子,分别用不同颜色表示:
    • 红色(Active)代表活性分子。
    • 蓝色(Generated)代表生成的分子。
    • 绿色(Geom_drug)代表几何药物分子。

2. 图 a:针对 AKT1 的分子

  • 活性分子(Active):红色的点分布较为分散,但在图的中部和右部有相对集中的区域。
  • 生成分子(Generated):蓝色的点在图的中部和左部有较多分布,与活性分子有一定的重叠。
  • 几何药物分子(Geom_drug):绿色的点分布较为分散,主要集中在图的左部和中部。

3. 图 b:针对 CDK2 的分子

  • 活性分子(Active):红色的点在图的中部和右部有较多分布。
  • 生成分子(Generated):蓝色的点在图的中部和左部有较多分布,与活性分子有一定的重叠。
  • 几何药物分子(Geom_drug):绿色的点分布较为分散,主要集中在图的左部和中部。

4. 分析与结论

  • t - SNE 图常用于可视化高维数据的分布情况,在这张图片中,它展示了不同类型分子在化学空间中的分布。
  • 从图中可以看出,生成分子(Generated)和活性分子(Active)在两个靶点(AKT1 和 CDK2)的化学空间中都有一定程度的重叠,这表明生成分子在结构上与活性分子有相似之处。
  • 几何药物分子(Geom_drug)的分布相对较为分散,与生成分子和活性分子的重叠较少,这可能意味着几何药物分子在化学结构上与其他两类分子有较大差异。

 

展示了由 DiffBP 针对 ADRB1 和 DRD3 目标可控设计的分子的可视化结果。随着比率(ratio)的增加,活性分子(active molecules)和重新设计的分子(re - designed molecules)之间的差异变得更加显著。

图中分为两大部分,分别对应 ADRB1 和 DRD3 两个目标。每个部分又分为若干行,每行展示了活性分子和重新设计的分子的对比。每行中都有四个分子结构的可视化图像,并且在每个分子图像旁边列出了相关的性质参数,包括 QED(定量药物相似性估计,Quantitative Estimate of Drug - likeness)、SA(合成可及性,Synthetic Accessibility)、ΔG_bind(结合自由能变化,Change in Binding Free Energy)和 Ginnia Aff.(Ginnia 亲和力,具体含义未在文中详细说明,但可能是与结合相关的亲和力指标)。

从图中可以观察到:

  1. 随着比率的增加,重新设计的分子在结构和性质上与活性分子的差异逐渐增大。
  2. 每个分子结构图像展示了分子的三维空间结构,不同颜色的球体代表不同的原子(例如,蓝色、红色、黄色和灰色可能分别代表氮、氧、硫和碳等常见原子,但具体颜色对应的原子类型需要结合图例进一步确认)。
  3. 性质参数的变化反映了分子在重新设计过程中的化学性质改变,例如 QED 和 SA 值的变化表明分子的药物相似性和合成可及性在重新设计后可能有所不同。

 

 

  • 这张图展示了在对 ADRB1 和 DRD3 进行分子重新设计时,随着掩蔽率的变化,配体效率的变化情况。总体来看,随着掩蔽率的增加,两种目标的配体效率都有不同程度的变化,ADRB1 的配体效率增长趋势更为明显。
  • (a) 2vt4 目标:ADRB1:展示了 ADRB1 的蛋白质结构、参考配体和 DiffBP 生成配体的结合情况、不同相互作用类型的频率柱状图,以及参考和 DiffBP 生成配体相互作用类型概率分布(JSD 值为 0.3092)。
  • (b) 3pbl 目标:DRD2:展示了 DRD2 的蛋白质结构、参考配体和 DiffBP 生成配体的结合情况、不同相互作用类型的频率柱状图,以及参考和 DiffBP 生成配体相互作用类型概率分布(JSD 值为 0.1410)。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/495410.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何在谷歌浏览器中进行网络速度测试

在当今高度依赖互联网的时代,网络速度的快慢直接影响着我们的工作、学习和娱乐等各个方面。因此,了解如何准确测试网络速度成为了每个网民应掌握的基本技能。谷歌浏览器作为一款广泛使用的浏览器,提供了便捷且高效的网络速度测试功能。本文将…

JAVAweb学习日记(三)Ajax

一、Ajax Axios: 入门: 案例: 二、前后端分离开发 介绍: APIfox: Apifox 前端工程化: 环境准备: Vue项目-创建: Vue项目-配置端口: Vue项目-开发流程: Vue…

聊天社交管理系统 Java 源码,构建个性化社交空间

社交网络已经是我们生活中非常重要的一部分,一个高效、个性化的聊天社交管理系统都能极大提升用户体验。 多种消息通知类型,支持新消息通知,图标闪烁、声音提醒和弹窗提醒。 1.音视频: 支持二人聊天,有语音聊天、桌面…

Shion(时间追踪工具) v0.13.2

Shion 是一款多功能的时间追踪软件,旨在帮助用户更好地管理时间。它提供了多种自定义数据卡片,如github风格的一年概览、30天单项数据柱状图和每日24小时活动展示,以便用户清晰地了解自己的日常生活。Shion还具备自动监听程序使用时间的功能&…

USDZ格式轻松转OBJ

USDZ格式简介 USDZ,作为苹果公司与PIXAR工作室联手推出的新型AR文件格式,正逐步成为增强现实(AR)领域中的佼佼者。USDZ文件不仅支持丰富的3D模型数据,还能嵌入材质、动画及交互信息,为用户带来沉浸式的AR体…

100V宽压输入反激隔离电源,适用于N道沟MOSFET或GaN或5V栅极驱动器,无需光耦合

说明: PC4411是一个隔离的反激式控制器在宽输入电压下具有高效率范围为2.7V至100V。它直接测量初级侧反激输出电压波形,不需要光耦合器或第三方用于调节的绕组。设置输出只需要一个电阻器电压。PC4411提供5V栅极驱动驱动外部N沟道MOSFET的电压或GaN。内部补偿和软启…

Linux的启动流程

目录 1、 加电开机,启动BIOS进行自检。 2、读取MBR(Master Boot Record, 主要启动记录区)。 3、加载GRUB(GRand Unified Bootloader)菜单。 4、加载内核(kernel)和驱动程序 5、运行systemd进程,加载如…

打造高效的 LaTeX 公式编辑器

在科研和工程领域,LaTeX 是最常用的公式排版工具之一。为了帮助用户更加高效地编辑和管理 LaTeX 公式,我们开发了一个集成了实时预览、公式管理和多格式导出功能的公式编辑器。本文将介绍这个工具的核心功能,并展示部分实现代码。 核心功能 …

OpenAI 12天发布会:AI革命的里程碑@附35页PDF文件下载

在人工智能的浪潮中,OpenAI的12天发布会无疑是2024年科技界的一场盛宴。从12月5日开始,OpenAI连续12天每天发布一个新应用或功能,标志着AI技术的又一次飞跃。本文将梳理这些激动人心的发布,带你一探究竟。 OpenAI发布会概览 Ope…

水电站视频智能监控系统方案设计与技术应用方案

一、背景需求 水电站作为国家重要的能源基地,其安全运行对于保障能源供应和社会稳定具有重要意义。然而,传统的人工监控方式存在着诸多问题,如人力成本高、监控范围有限、反应不及时等。因此,水电站急需引进一种先进的视频智能监控…

Batch_Size对神经网络训练效率的影响:一个PyTorch实例分析

一、Batch_Size简介 想象一下,你是一位老师,正在教一群学生学习数学。在这个比喻中,每个学生都是神经网络训练中的一个数据样本,而你教学生的方式就是通过“批量”来进行的。这里的“批量”就是我们所说的batch_size。 现在&…

Flutter组件————FloatingActionButton

FloatingActionButton 是Flutter中的一个组件,通常用于显示一个圆形的按钮,它悬浮在内容之上,旨在吸引用户的注意力,并代表屏幕上的主要动作。这种按钮是Material Design的一部分,通常放置在页面的右下角,但…

机器学习基础 衡量模型性能指标

目录 1 前言 ​编辑1.1 错误率(Error rate)&精度(Accuracy)&误差(Error): 1.2 过拟合(overfitting): 训练误差小,测试误差大 1.3 欠拟合(underfitting):训练误差大,测试误差大 1.4 MSE: 1.5 RMSE: 1.6 MAE: 1.7 R-S…

langchain使用FewShotPromptTemplate出现KeyError的解决方案

大家好,我是爱编程的喵喵。双985硕士毕业,现担任全栈工程师一职,热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的…

Arduino驱动DS18B20测量环境温度

DS18B20是一款高精度的单总线数字温度传感器,具体参数如下表所示: 参数名称 参数特性 测温范围 -55~125℃ 测量精度 在-10~85℃范围内的误差为0.5℃ 分辨率 9~12位数字信号,分辨率分别为0.5℃、0.25℃、0.125℃和0.0625℃ 通信方式 …

ffmpeg之播放一个yuv视频

播放YUV视频的步骤 初始化SDL库: 目的:确保SDL库正确初始化,以便可以使用其窗口、渲染和事件处理功能。操作:调用 SDL_Init(SDL_INIT_VIDEO) 来初始化SDL的视频子系统。 创建窗口用于显示YUV视频: 目的:…

MySQL索引为什么是B+树

MySQL索引为什么是B树 索引是帮助MySQL高效获取数据的数据结构,在数据之外,数据库还维护着满足特定查找算法的数据结构B树,这些数据结果以某种特定的方式引用数据,这样就可以在这些数据结构上实现高级查找算法,提升数据…

打造高效租赁小程序让交易更便捷

内容概要 在如今节奏飞快的商业世界里,租赁小程序如同一只聪明的小狐狸,迅速突围而出,成为商家与消费者之间的桥梁。它不仅简化了交易流程,还在某种程度上将传统租赁模式带入了互联网时代。越来越多的企业意识到,这种…

抓取手机HCI日志

荣耀手机 1、打开开发者模式 2、开启HCI、ADB调试 3、开启AP LOG 拨号界面输入*##2846579##* 4、蓝牙配对 5、抓取log adb pull /data/log/bt ./

GPT人工智能在医疗文档中的应用

应用场景 用于文档的整理。主要是针对医疗方面的文档整理。病人在打官司或者办理其他业务时,需要把很多文档整理成册并添加目录、编写概要(Summary)。这些文档有电子版本的,有纸质的扫描件,还有拍照(一般是…