AIDD-人工智能药物设计-化学自然语言引导的扩散式类药分子编辑：DiffIUPAC的魔法之旅

J. Pharm. Anal. | 化学自然语言引导的扩散式类药分子编辑：DiffIUPAC的魔法之旅

AIDD药研.

制药工程和生命科学背景，重点关注于计算机辅助药物设计（CADD）/药物筛选、分子动力学模拟MD，兽药信息学VetInformatics，数据库分享，RNA/蛋白质结构预测。

亲爱的读者们，今天让我们一起踏上一段充满魔法与科学的旅程，探索化学自然语言与人工智能如何联手，开启药物发现的新篇章。想象一下，化学家们就像拥有了哈利·波特的魔法棒，可以用人类的语言直接“召唤”出全新的分子。这一切都要归功于一个名为 DiffIUPAC 的神奇模型。

一、背景：化学界的“语言障碍”

在化学世界里，我们有几种主要的“语言”，它们在不同的应用场景下发挥着重要作用：

• 化学自然语言（IUPAC 名称）：这是化学家用于命名化合物的正式语言，类似于人类的母语，易于理解和修改，能够描述化合物的详细结构信息，方便交流和沟通。
• 化学语言（SMILES 字符串）：这是计算机理解的“代码语言”，方便机器处理，但对于人类来说，就像在读外星文字。SMILES（简洁分子输入线性表记法）通过字符描述分子的结构，适用于机器学习和化学信息学应用。
• SMARTS 语言：SMARTS 是 SMILES 的扩展，允许化学家表达分子模式的匹配规则，常用于子结构搜索和相似性比较，支持复杂的查询和模式匹配。
• Sybyl Line Notation（SLN）：SLN 是一种描述分子和反应的灵活语言，支持更复杂的分子描述和属性注释，通常用于分子数据库和化学信息管理系统。
• InChI（国际化学标识符）：InChI 基于 IUPAC 标准的文本标识符，能够唯一地描述分子的结构。与 SMILES 相比，InChI 更标准化，适合用于数据库存储和分子查找。

这些语言在化学信息学领域中各有用途。IUPAC名称更贴近人类语言，而SMILES、SMARTS、InChI等则更适合计算机处理和化学库的搜索。DiffIUPAC的主要涉及IUPAC名称和SMILES字符串之间的转换，但其潜力也可以扩展到其他化学语言的互相转换中图1。

图1.同一分子的IUPAC名称和SMILES 之间的差异的视觉表示

然而，这些语言之间的“翻译”一直是个难题。传统的生成模型主要关注分子的 2D 或 3D 结构，对序列（语言）级别的研究较少。而 IUPAC 名称虽然更接近人类语言，但直接用于深度学习模型却存在挑战。

二、DiffIUPAC：魔法翻译器的诞生

为了破解这个难题，研究人员提出了 DiffIUPAC，一个基于 IUPAC 名称引导的条件扩散模型，能够将化学自然语言转换为化学语言（SMILES 字符串）。这就像给化学家们配备了一个实时翻译器，可以将他们的想法直接传达给计算机。

1. 模型原理：从噪声中提取信号

DiffIUPAC 基于 扩散模型，而扩散模型是近年来生成式深度学习中的一颗新星。不过，大多数基于扩散的分子生成模型都侧重于二维图形或三维几何图形的建模，对分子序列扩散模型的研究有限。

DiffIUPAC 的工作原理类似于在一幅模糊的图像中逐渐清晰地呈现出细节：

• 正向扩散过程：将真实的 SMILES 字符串逐步加入随机噪声，直到变得无法识别。
• 逆向扩散过程：模型学习如何从噪声中一步步去除噪声，恢复出原始的 SMILES 字符串。

通过这种方式，DiffIUPAC 能够从 IUPAC 名称出发，生成对应的 SMILES 字符串。

2. 模型优势：双语精通，灵活编辑

• 捕捉语义规则：DiffIUPAC 成功地学习了 IUPAC 名称和 SMILES 字符串之间的语义规则，能够准确地进行转换。
• 可控的分子编辑：用户可以在 IUPAC 名称中指定要修改的部分（用“*”替代），模型会根据这些提示生成新的分子，这在先导化合物优化中非常实用。
• 生成多样的类药分子：在指定的约束下，DiffIUPAC 能够生成具有不同骨架的多样化类药分子，拓展了药物设计的可能性。

三、方法：从数据准备到模型训练

1. 数据准备与分词

研究人员从 PubChem 数据库获取了大量的分子数据，包括 IUPAC 名称和 SMILES 字符串。经过清洗和筛选，得到符合类药性要求的高质量数据集。

为了处理序列数据，他们设计了一个 基于规则的 IUPAC 分词器，将 IUPAC 名称分解为片段、官能团、亚结构等元素。对于 SMILES 字符串，采用了基于字符的分词方式。

2. 模型架构

DiffIUPAC 采用了 编码器-解码器 Transformer 架构图2，结合了扩散模型的优势：

• 正向扩散过程：将 SMILES 字符串嵌入到向量空间，逐步加入高斯噪声，直到变成纯随机噪声。
• 逆向扩散过程：利用 IUPAC 名称作为条件，模型学习如何从噪声中逐步去噪，恢复出 SMILES 字符串
图2.DiffIUPAC 架构
（A）分子编辑过程中的预训练、微调和约束。（B）IUPAC命名为条件输入，使用编码器-解码器 Transformer 架构的SMILES 的条件扩散模型。

3. 模型训练

通过最小化真实数据分布与模型生成分布之间的差异，研究人员使用大规模的数据集对模型进行了训练。为了提高效率，他们在高性能计算环境中完成了训练过程。

1. 模型的输入与核心思想

• 输入形式：
- • 输入为 IUPAC 名称，目标是生成对应的 SMILES 字符串。
• 正向扩散过程：
- • 对真实样本添加逐渐增加的随机高斯噪声，使其过渡到随机分布。
• 反向扩散过程：
- • 学习参数化的去噪分布，通过逐步采样将纯随机噪声还原为真实的 SMILES 字符串。
• 训练目标：
- • 最小化观察数据分布的 负对数似然（NLL），以提升生成样本的保真度。
- • 目标是优化模型对真实数据特征的再现能力。

2. 关键技术点

• 优化策略：
- • 使用 反向传播的随机梯度下降（SGD） 来最小化变分下限。
• 时间步嵌入：
- • 将时间步长信息嵌入到噪声样本中，帮助模型区分扩散过程的不同阶段。
- • 为每个阶段设计定制化的去噪策略，提高了生成的细节精度和整体保真度。

3. 硬件与软件环境

• 硬件配置：
- • 系统：Ubuntu Linux 20.04 LTS
- • CPU：Intel Xeon Platinum 8352M @ 2.30 GHz
- • 内存：228 GB
- • GPU：单块 NVIDIA A100 80GB
• 软件环境：
- • 编程语言：Python 3.8
- • 深度学习框架：PyTorch 1.10.0

4. 模型性能与潜在优势

• 生成保真度：
- • 通过优化负对数似然和时间步嵌入，有效提高了从随机噪声重建真实 SMILES 字符串的保真度。
- • 对每一阶段的去噪策略进行了细化，确保了生成结果的可靠性和准确性。
• 可扩展性：
- • 利用扩散模型的灵活性，可以推广到其他分子生成任务。
• 高效性：
- • 在 NVIDIA A100 GPU 的加速下，实现了快速的模型训练，满足了大规模分子数据的学习需求。

5. 优化方向与挑战

• 模型复杂性：
- • 时间步长嵌入的加入虽然提升了性能，但可能增加了模型复杂性，需要额外计算资源。
• 数据分布偏差：
- • 模型对真实数据分布的拟合效果依赖训练数据的质量和多样性。
• 推理效率：
- • 反向扩散过程需要多步迭代采样，可能对实时生成任务带来挑战。

训练通过结合扩散模型和时间步长嵌入策略，成功提升了 IUPAC 到 SMILES 转换的生成保真度。硬件和软件环境的高性能支持了模型的高效训练，但在实际应用中，需要进一步优化推理效率以应对更广泛的任务场景。

4. 基线方法

研究人员将 DiffIUPAC 与以下基线方法进行了比较：

1. C5T5

• 方法概述：C5T5 使用 IUPAC 名称作为分子表示，通过变体条件 Transformer 训练一个自监督的预训练 T5 模型，以实现有机分子的控制生成。
• 过程：
1. 1. 首先生成新的 IUPAC 名称。
2. 1. 然后将其转换为 SMILES 字符串。

2. TransAntivirus

• 方法概述：TransAntivirus 通过连接两个变体条件 Transformer 模型，根据 IUPAC 名称生成 SMILES 字符串。

3. iupacGPT

• 方法概述：iupacGPT 使用 IUPAC 名称作为分子表示，基于 GPT-2 化学自然模型开发轻量级的分子生成和性质预测模型。

4. DiffSeqMol

• 方法概述：DiffSeqMol 以 SMILES 字符串作为分子表示，提出了基于扩散模型的分子序列到序列生成模型。

四、结果与讨论：魔法的力量

1. 模型性能评估

研究人员使用了一系列指标对 DiffIUPAC 的性能进行了评估，并与其他模型进行了比较：

• 有效性（Validity）：生成的分子中，有效分子的比例。
• 新颖性（Novelty）：生成的分子中，不在训练集中的比例。
• 多样性（Diversity）：生成分子的结构多样性。
• Fréchet ChemNet Distance（FCD）：评估生成分子与参考集在化学特征上的相似性。

表1.训练后采样 SMILES 字符串的有效性、唯一性、新颖性、FCD 和 IntDiv

Model	Valid	Unique@1k	Unique@10k	Novelty	FCD/Test	IntDiv
C5T5	0.991	0.993	0.993	0.989	9.196	0.894
TransAntivirus	0.999	0.999	0.999	0.999	10.947	0.895
iupacGPT	0.656	1.000	0.999	0.998	8.379	0.889
DiffSeqMol	0.901	1.000	0.995	0.971	8.198	0.857
DiffIUPAC	0.998	1.000	1.000	0.999	20.509	0.872

• FCD: Fréchet ChemNet Distance
• IntDiv: Internal Diversity
• SMILES: Simplified Molecular Input Line Entry System

结果显示表1，DiffIUPAC 在这些指标上均优于基于 IUPAC 名称的深度分子生成模型（C5T5、TransAntivirus 和 iupacGPT）和基于 SMILES 的扩散模型 DiffSeqMol，尤其在捕捉两种化学语言的语义规则方面表现突出。

2. 可控的分子生成

案例一：功能基团编辑

以一种用于癌症免疫治疗的分子 DKY709 为例，其 IUPAC 名称为：

3-[6-(1-benzylpiperidin-4-yl)-3-oxo-1H-isoindol-2-yl]piperidine-2,6-dione

如果我们希望替换其中的 “piperidine-2,6-dione” 部分，可以将其屏蔽为 “*”：

3-[6-(1-benzylpiperidin-4-yl)-3-oxo-1H-isoindol-2-yl]*

**
**

图3.输入编辑过的IUPAC后，模型生成的分子图解

DiffIUPAC 的操作：

• 输入：屏蔽后的 IUPAC 名称。
• 生成：模型根据输入，生成新的 SMILES 字符串，其中被屏蔽的部分被替换为各种可能的官能团。
• 结果分析：如图3生成的分子中，指定的子结构保持不变，被屏蔽的部分被化学上可行的官能团替换。这种精确控制分子特定部分的能力，对于化学家在先导化合物优化中的官能团修饰非常有用。

代表性结构：

• 研究人员展示了多种生成的分子结构，体现了模型在官能团替换上的多样性。

3. 类似物设计

案例二：BCL-xL 抑制剂 A-1331852

• 背景：A-1331852 是一种通过阻断蛋白-蛋白相互作用（PPI）诱导肿瘤细胞凋亡的抑制剂。
• 操作步骤：
- • 屏蔽 IUPAC 名称的特定部分：例如，将 “(1,3-苯并噻唑-2-基氨基甲酰基)” 和 “[1-(1-金刚烷基甲基)-5-甲基吡唑-4-基]” 屏蔽为 “*”图4A。
- • 生成新分子：利用 DiffIUPAC 生成 3,000 个有效分子。
- • 筛选相似分子：通过 Tanimoto 相似度，筛选出 674 个与原始分子相似的分子。
- • 虚拟筛选：使用分子对接，筛选出 549 个对接评分高于 A-1331852 的分子。
- • 类药性评估：使用 QEPPI 评估，最终有 368 个分子表现出更好的类药性和对接评分。
图4.(A) 输入屏蔽的IUPAC 名称 A-1331852 以生成类药物类似物。(B) Bcl-xL 与 A-1331852 抑制剂的对接姿势，以及 A-1331852 物理化学性质的雷达图。© Bcl-xL 与生成的类似物的对接姿势，以及物理化学性质的雷达图。氢键显示为蓝色虚线。π-阳离子相互作用显示为灰色虚线。
• 结果分析：
- • 对接分析：选取了一个对接表现优异的分子，发现其与 BCL-xL 的结合更为紧密，形成了额外的氢键和相互作用图4B-C。
- • 雷达图分析：显示生成的命中化合物具有更好的 PPI 靶向类药特性，具备进一步实验评估的潜力图4B-C。

4. 连接子设计

案例三：Menin-MLL 抑制剂 Ziftomenib

片段药物发现（FBDD） 是一种引导化合物发现和优化的常用策略，通过优化连接片段来提升分子的性质和亲和力。

• 操作步骤：
- • 屏蔽连接子部分：将 Ziftomenib 的 IUPAC 名称中的连接子部分屏蔽为 “*”图5A。
- • 生成新分子：采样了 1,000 个有效分子。
- • 筛选相似分子：筛选出 572 个与 Ziftomenib 结构相似的分子。
- • 虚拟筛选：在对接筛选中，10 个新分子的对接得分优于 Ziftomenib。
- • 类药性评估：通过 QEPPI 评估，有 7 个化合物的类药性评分超过了 Ziftomenib。
• 结果分析：
- • 对接分析：生成的命中化合物在 Menin 结合位点表现出增强的相互作用图4B-C。
- • 雷达图分析：显示其具备良好的类药性和 PPI 靶向性图4B-C。
- ![外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传](https://img-home.csdnimg.cn/images/20230724024159.png?origin_url=data%3Aimage%2Fsvg%2Bxml%2C%253C%253Fxml%20version%3D’1.0’%20encoding%3D’UTF-8’%253F%253E%253Csvg%20width%3D’1px’%20height%3D’1px’%20viewBox%3D’0%200%201%201’%20version%3D’1.1’%20xmlns%3D’http%3A%2F%2Fwww.w3.org%2F2000%2Fsvg’%20xmlns%3Axlink%3D’http%3A%2F%2Fwww.w3.org%2F1999%2Fxlink’%253E%253Ctitle%253E%253C%2Ftitle%253E%253Cg%20stroke%3D’none’%20stroke-width%3D’1’%20fill%3D’none’%20fill-rule%3D’evenodd’%20fill-opacity%3D’0’%253E%253Cg%20transform%3D’translate(-249.000000%2C%20-126.000000&pos_id=img-70vJwr1P-1733502203740)’ fill=‘%23FFFFFF’%3E%3Crect x=‘249’ y=‘126’ width=‘1’ height=‘1’%3E%3C/rect%3E%3C/g%3E%3C/g%3E%3C/svg%3E)
- 图5.(A) 输入Ziftomenib的屏蔽IUPAC以生成连接子。(B) Menin与Ziftomenib的对接姿势，以及Ziftomenib理化性质的雷达图。© Menin与生成的化合物的对接姿势，以及理化性质的雷达图。氢键显示为蓝色虚线，卤键显示为黄绿色虚线，π-阳离子相互作用显示为灰色虚线。