基于Python的药物相互作用预测模型AI构建与优化(下.代码部分)

四、特征工程

4.1 分子描述符计算

分子描述符作为量化分子性质的关键数值,能够从多维度反映药物分子的结构和化学特征,在药物相互作用预测中起着举足轻重的作用。RDKit 库凭借其强大的功能,为我们提供了丰富的分子描述符计算方法,涵盖了多个重要方面的分子性质。

分子量(Molecular Weight)是最基本的分子描述符之一,它反映了分子的质量大小,对药物的药代动力学性质有着不可忽视的影响。在药物研发和临床应用中,分子量是评估药物吸收、分布、代谢和排泄过程的重要参考指标。例如,一般来说,分子量较小的药物更容易通过生物膜,从而提高其生物利用度。在 RDKit 中,计算分子量的方法简洁高效,通过Descriptors.MolWt(mol)函数,即可准确地计算出分子的分子量。以阿司匹林(SMILES 字符串为“CC (=O) OC1=CC=CC=C1C (=O) O”)为例,首先使用Chem.MolFromSmiles函数将 SMILES 字符串转换为分子对象mol,然后调用Descriptors.MolWt(mol)函数,就能得到阿司匹林的分子量。具体代码如下:

from rdkit import Chemfrom rdkit.Chem import Descriptorssmiles = "CC(=O)OC1=CC=CC=C1C(=O)O"mol = Chem.MolFromSmiles(smiles)molecular_weight = Descriptors.MolWt(mol)print(f"阿司匹林的分子量: {molecular_weight}")

运行上述代码,即可得到阿司匹林的分子量,这一数值为后续分析阿司匹林在体内的药代动力学过程提供了基础数据。

拓扑极性表面积(Topological Polar Surface Area, TPSA)是衡量分子极性的重要指标,它与药物分子的水溶性、膜通透性等密切相关。药物分子的水溶性和膜通透性是影响其药效的关键因素,水溶性好的药物更容易在体内溶解和运输,而膜通透性高的药物则更容易进入细胞内发挥作用。TPSA 能够准确地反映分子中极性部分的表面积,从而为评估药物分子的这些性质提供依据。在 RDKit 中,使用Descriptors.TPSA(mol)函数可以方便地计算分子的 TPSA。对于上述阿司匹林分子,计算其 TPSA 的代码如下:

tpsa = Descriptors.TPSA(mol)print(f"阿司匹林的拓扑极性表面积: {tpsa}")

通过计算得到的 TPSA 值,我们可以初步判断阿司匹林的水溶性和膜通透性情况,为药物相互作用预测提供重要的特征信息。

脂溶性(LogP)也是一个重要的分子描述符,它反映了药物分子在油相和水相中的分配系数,对药物的吸收、分布和代谢过程有着重要影响。脂溶性适中的药物更容易通过生物膜,进入体内发挥作用,但如果脂溶性过高,药物可能会在脂肪组织中蓄积,导致不良反应的发生。在 RDKit 中,使用Descriptors.MolLogP(mol)函数可以计算分子的 LogP 值。对于阿司匹林分子,计算其 LogP 的代码如下:

logp = Descriptors.MolLogP(mol)

print(f"阿司匹林的脂溶性(LogP): {logp}")

通过计算得到的 LogP 值,我们可以了解阿司匹林在体内的分布情况,进一步分析其与其他药物发生相互作用的可能性。

氢键供体 / 受体数(HBD、HBA)是描述分子形成氢键能力的重要指标,氢键在药物与靶点的相互作用中起着关键作用。药物分子与靶点之间通过氢键相互作用,可以改变靶点的活性,从而影响药物的疗效。在 RDKit 中,使用Descriptors.NumHDonors(mol)函数可以计算分子的氢键供体数,使用Descriptors.NumHAcceptors(mol)函数可以计算分子的氢键受体数。对于阿司匹林分子,计算其氢键供体数和氢键受体数的代码如下:

hbd = Descriptors.NumHDonors(mol)

hba = Descriptors.NumHAcceptors(mol)

print(f"阿司匹林的氢键供体数: {hbd}")

print(f"阿司匹林的氢键受体数: {hba}")

通过计算得到的氢键供体数和氢键受体数,我们可以分析阿司匹林与其他药物或靶点之间形成氢键的可能性,为药物相互作用预测提供重要的特征信息。

这些分子描述符从不同维度刻画了药物分子的化学性质,综合起来能够全面地描述药物分子的特征。在药物相互作用预测模型中,将这些分子描述符作为输入特征,能够帮助模型更好地学习药物分子之间的相互作用模式,提高模型的预测准确性。

4.2 分子指纹生成

分子指纹作为一种将分子结构信息压缩成固定长度二进制向量的强大工具,能够高效地捕捉药物分子的结构特征,在药物相互作用预测中发挥着关键作用。其中,Morgan 指纹是一种应用广泛的分子指纹,它通过独特的算法,能够有效地编码分子结构的局部环境信息,为药物相互作用预测模型提供重要的输入特征。

在 Python 中,利用 RDKit 库可以方便地生成 Morgan 指纹。RDKit 库提供了丰富的函数和工具,使得分子指纹的生成过程变得简洁而高效。以生成半径为 2、位数为 2048 的 Morgan 指纹为例,首先需要将药物分子的 SMILES 字符串转换为 RDKit 中的分子对象mol,这一步可以通过Chem.MolFromSmiles函数实现。然后,使用AllChem.GetMorganFingerprintAsBitVect函数生成分子的 Morgan 指纹。具体代码如下:

from rdkit import Chem

from rdkit.Chem import AllChem

smiles = "CC(=O)OC1=CC=CC=C1C(=O)O"  # 阿司匹林的SMILES字符串

mol = Chem.MolFromSmiles(smiles)

fp = AllChem.GetMorganFingerprintAsBitVect(mol, radius=2, nBits=2048)

在上述代码中,radius=2表示指纹计算时考虑的原子邻域半径,半径越大,指纹包含的分子结构信息越丰富,但计算量也会相应增加。nBits=2048表示生成的指纹向量的长度为 2048 位,较长的指纹向量能够更细致地描述分子结构,但也可能会增加数据的维度和模型训练的复杂度。通过调整这两个参数,可以根据实际需求和数据特点,生成最适合药物相互作用预测的分子指纹。

生成的 Morgan 指纹是一个固定长度的二进制向量,其中的每一位都代表了分子结构中的某种特征。这些特征可能是分子中的特定原子组合、化学键类型或局部结构模式等。通过将药物分子转换为 Morgan 指纹,我们可以将复杂的分子结构信息转化为易于计算机处理的数字特征,从而方便后续的模型训练和分析。在药物相互作用预测模型中,将 Morgan 指纹作为输入特征,可以帮助模型更好地识别具有相似相互作用模式的药物分子,提高模型的预测准确性。例如,在训练过程中,模型可以学习到不同药物分子的 Morgan 指纹与药物相互作用之间的关联,从而在遇到新的药物分子时,能够根据其 Morgan 指纹预测它与其他药物发生相互作用的可能性。

4.3 药物对特征构建

在药物相互作用预测中,仅考虑单个药物的特征是不够的,因为药物相互作用本质上是两个药物之间的相互关系。因此,构建药物对的特征对于准确预测药物相互作用至关重要。我们通过结合两个药物的特征,并进行差值、乘积等操作,能够挖掘出药物对之间的相互作用特征,为模型提供更丰富的信息。

以分子描述符为例,我们可以计算两个药物分子描述符的差值和乘积。假设药物 A 的分子量为mol_weight_A,药物 B 的分子量为mol_weight_B,则分子量差值diff_mol_weight可以通过diff_mol_weight = mol_weight_A - mol_weight_B计算得到。分子量差值能够反映两个药物在质量大小上的差异,这种差异可能与药物的药代动力学过程相关,从而影响它们之间的相互作用。例如,分子量差异较大的两个药物在体内的吸收、分布和代谢过程可能存在较大差异,这可能导致它们之间发生相互作用的可能性增加或减少。分子量乘积prod_mol_weight可以通过prod_mol_weight = mol_weight_A * mol_weight_B计算得到。分子量乘积从另一个角度反映了两个药物的特征组合,它可能与药物的某些协同作用或拮抗作用相关。在某些情况下,两个药物的分子量乘积可能与它们联合使用时的疗效或不良反应存在关联。

对于拓扑极性表面积(TPSA),同样可以计算差值和乘积。假设药物 A 的 TPSA 为tpsa_A,药物 B 的 TPSA 为tpsa_B,则 TPSA 差值diff_tpsadiff_tpsa = tpsa_A - tpsa_B,TPSA 乘积prod_tpsaprod_tpsa = tpsa_A * tpsa_B。TPSA 差值和乘积能够反映两个药物在极性和水溶性方面的差异和组合,这些性质对于药物在体内的跨膜转运和相互作用具有重要影响。例如,TPSA 差值较大的两个药物在细胞膜通透性上可能存在差异,这可能导致它们在细胞内的浓度分布不同,进而影响它们之间的相互作用。

在 Python 中,我们可以使用以下代码实现药物对特征的构建。假设drug_data是包含药物数据的 DataFrame,其中mol_weight列表示分子量,tpsa列表示拓扑极性表面积:

import pandas as pd# 假设drug_data是包含药物数据的DataFramedrug_data = pd.read_csv('drug_data.csv')# 假设数据集中已经计算好了每个药物的分子描述符,现在将数据转换为药物对的形式drug_pairs = []for i in range(len(drug_data)):    for j in range(i + 1, len(drug_data)):        drug_a = drug_data.iloc[i]        drug_b = drug_data.iloc[j]        pair = {            'drug_a_id': drug_a['drug_id'],            'drug_b_id': drug_b['drug_id'],          'mol_weight_a': drug_a['mol_weight'],          'mol_weight_b': drug_b['mol_weight'],            'tpsa_a': drug_a['tpsa'],            'tpsa_b': drug_b['tpsa']        }        drug_pairs.append(pair)drug_pair_df = pd.DataFrame(drug_pairs)# 计算药物对的特征drug_pair_df['diff_mol_weight'] = drug_pair_df['mol_weight_a'] - drug_pair_df['mol_weight_b']drug_pair_df['prod_mol_weight'] = drug_pair_df['mol_weight_a'] * drug_pair_df['mol_weight_b']drug_pair_df['diff_tpsa'] = drug_pair_df['tpsa_a'] - drug_pair_df['tpsa_b']drug_pair_df['prod_tpsa'] = drug_pair_df['tpsa_a'] * drug_pair_df['tpsa_b']# 打印结果print(drug_pair_df.head())

上述代码首先将药物数据转换为药物对的形式,然后计算每个药物对的分子量差值、分子量乘积、TPSA 差值和 TPSA 乘积。通过这些计算,我们得到了一系列能够反映药物对之间相互作用特征的新特征,这些特征可以作为药物相互作用预测模型的输入,帮助模型更好地学习药物对之间的相互作用模式,提高预测的准确性。

4.4 特征选择与降维

在药物相互作用预测模型中,经过前面的步骤我们得到了大量的特征,然而并非所有特征都对预测任务具有同等的重要性。一些特征可能是冗余的,它们提供的信息已经包含在其他特征中;还有一些特征可能与药物相互作用的相关性较低,对模型的预测性能贡献不大。过多的特征不仅会增加模型的训练时间和计算成本,还可能导致过拟合问题,使模型在测试集上的表现不佳。因此,进行特征选择与降维是非常必要的,它能够去除冗余和无关特征,保留对预测任务最有价值的特征,从而提高模型的性能和泛化能力。

方差分析(Analysis of Variance,ANOVA)是一种常用的特征选择方法,它通过比较不同类别下特征的均值差异来判断特征的重要性。在药物相互作用预测中,我们可以将药物是否发生相互作用作为类别,计算每个特征在不同类别下的均值。如果某个特征在发生相互作用和不发生相互作用的药物对之间的均值差异显著,那么这个特征很可能对药物相互作用的预测具有重要意义。例如,对于药物的某种分子描述符,如果在发生相互作用的药物对中,该描述符的均值明显高于或低于不发生相互作用的药物对,说明这个描述符与药物相互作用存在关联。在 Python 中,使用scikit-learn库的f_classif函数可以方便地进行方差分析。假设X是特征矩阵,y是标签向量,代码如下:

from sklearn.feature_selection import f_classif

# 计算每个特征的F值和p

f_values, p_values = f_classif(X, y)

上述代码中,f_classif函数返回每个特征的 F 值和 p 值,F 值越大,说明该特征在不同类别下的均值差异越显著,p 值越小,说明该特征越显著。我们可以根据 F 值或 p 值对特征进行排序,选择 F 值较大或 p 值较小的特征作为重要特征。

相关性分析也是一种常用的特征选择方法,它用于衡量两个变量之间的线性相关程度。在药物相互作用预测中,我们可以计算每个特征与药物相互作用标签之间的相关性,以及特征之间的相关性。对于与药物相互作用标签相关性较低的特征,它们对预测任务的贡献可能较小,可以考虑去除;对于相互之间相关性较高的特征,它们可能存在冗余信息,我们可以选择其中一个代表性的特征,去除其他相关性高的特征。在 Python 中,使用pandas库的corr函数可以计算特征之间的相关性矩阵。假设data是包含特征和标签的 DataFrame,代码如下:

import pandas as pd

# 计算相关性矩阵

corr_matrix = data.corr()

通过计算得到的相关性矩阵,我们可以直观地看到各个特征之间以及特征与标签之间的相关性。例如,如果某个特征与标签的相关性系数接近 0,说明该特征与药物相互作用的相关性较低;如果两个特征之间的相关性系数接近 1 或 - 1,说明这两个特征之间存在较强的线性相关关系,可能存在冗余。

主成分分析(Principal Component Analysis,PCA)是一种常用的降维方法,它通过线性变换将原始特征转换为一组新的正交特征,即主成分。这些主成分按照方差从大到小排列,方差越大表示该主成分包含的信息越多。在药物相互作用预测中,我们可以使用 PCA 将高维的特征空间转换为低维的主成分空间,从而降低特征的维度。在 Python 中,使用scikit-learn库的PCA类可以方便地实现主成分分析。假设X是特征矩阵,我们希望将特征维度降低到n_components维,代码如下:

from sklearn.decomposition import PCA

# 创建PCA对象,设置目标维度为n_components

pca = PCA(n_components=n_components)

# 对特征矩阵进行PCA降维

X_reduced = pca.fit_transform(X)

上述代码中,PCA类的n_components参数指定了降维后的目标维度。通过fit_transform方法,我们可以将原始特征矩阵X转换为降维后的特征矩阵X_reduced。在选择n_components时,我们可以根据解释方差比来确定,解释方差比表示每个主成分所包含的方差占总方差的比例。通常,我们选择使得累计解释方差比达到一定阈值(如 0.95)的主成分数量作为n_components的值,这样可以在保留大部分信息的同时,有效地降低特征维度。

五、模型构建与训练

5.1 传统机器学习模型

5.1.1 逻辑回归模型

逻辑回归是一种广泛应用于分类问题的线性模型,虽然其名称中包含 “回归”,但实际上它是一种分类算法,在药物相互作用预测中具有重要的应用价值。

逻辑回归的基本原理基于线性回归模型,通过引入 sigmoid 函数将线性回归的输出映射到 (0, 1) 区间,从而实现对样本的分类预测。假设我们有一个二分类问题,样本的特征向量为X = (x_1, x_2, \ldots, x_n),模型的参数向量为\theta = (\theta_0, \theta_1, \ldots, \theta_n),则线性回归的输出为z = \theta_0 + \theta_1x_1 + \theta_2x_2 + \cdots + \theta_nx_n。然后,通过 sigmoid 函数\sigma(z) = \frac{1}{1 + e^{-z}}将z映射到 (0, 1) 区间,得到样本属于正类(在药物相互作用预测中,可表示为药物之间存在相互作用)的概率

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/10341.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【算法】动态规划专题① ——线性DP python

目录 引入简单实现稍加变形举一反三实战演练总结 引入 楼梯有个台阶,每次可以一步上1阶或2阶。一共有多少种不同的上楼方法? 怎么去思考? 假设就只有1个台阶,走法只有:1 只有2台阶: 11,2 只有3台…

0 基础学运维:解锁 K8s 云计算运维工程师成长密码

前言:作为一个过来人,我曾站在技术的门槛之外,连电脑运行内存和内存空间都傻傻分不清,完完全全的零基础。但如今,我已成长为一名资深的k8s云计算运维工程师。回顾这段历程,我深知踏上这条技术之路的艰辛与不…

事务03之MVCC机制

MVCC 多版本并发控制机制 文章目录 MVCC 多版本并发控制机制一:并发事务的场景1:读读场景2:写写场景3:读写 or 写读场景 二:MVCC机制综述1:MVCC日常生活的体现2:多版本并发控制 三:M…

数据结构-Stack和栈

1.栈 1.1什么是栈 栈是一种特殊的线性表,只允许在固定的一段进行插入和删除操作,进行插入和删除操作的一段称为栈顶,另一端称为栈底。 栈中的数据元素遵顼后进先出LIFO(Last In First Out)的原则,就像一…

langchain基础(二)

一、输出解析器(Output Parser) 作用:(1)让模型按照指定的格式输出; (2)解析模型输出,提取所需的信息 1、逗号分隔列表 CommaSeparatedListOutputParser:…

AI编程:如何编写提示词

这是小卷对AI编程工具学习的第2篇文章,今天讲讲如何编写AI编程的提示词,并结合实际功能需求案例来进行开发 1.编写提示词的技巧 好的提示词应该是:目标清晰明确,具有针对性,能引导模型理解问题 下面是两条提示词的对…

【B站保姆级视频教程:Jetson配置YOLOv11环境(五)Miniconda安装与配置】

B站同步视频教程:https://www.bilibili.com/video/BV1MwFDeyEYC/ 文章目录 0. Anaconda vs Miniconda in Jetson1. 下载Miniconda32. 安装Miniconda33. 换源3.1 conda 换源3.2 pip 换源 4. 创建环境5. 设置默认启动环境 0. Anaconda vs Miniconda in Jetson Jetson…

仿真设计|基于51单片机的无线投票系统仿真

目录 具体实现功能 设计介绍 51单片机简介 资料内容 仿真实现(protues8.7) 程序(Keil5) 全部内容 资料获取 具体实现功能 (1)投票系统分为发送端和接收端。 (2)发送端通过按…

玩转大语言模型——使用langchain和Ollama本地部署大语言模型

系列文章目录 玩转大语言模型——使用langchain和Ollama本地部署大语言模型 玩转大语言模型——ollama导入huggingface下载的模型 玩转大语言模型——langchain调用ollama视觉多模态语言模型 玩转大语言模型——使用GraphRAGOllama构建知识图谱 玩转大语言模型——完美解决Gra…

(动态规划基础 打家劫舍)leetcode 198

已知h2和h1&#xff0c;用已知推出未知 推是求答案&#xff0c;回溯是给答案 这里图片给出dfs暴力&#xff0c;再进行记录答案完成记忆化搜索&#xff0c;再转为dp数组 #include<iostream> #include<vector> #include<algorithm> //nums:2,1,1,2 //dp:2,2,…

origin如何在已经画好的图上修改数据且不改变原图像的画风和格式

例如我现在的.opju文件长这样 现在我换了数据集&#xff0c;我想修改这两个图表里对应的算法里的数据&#xff0c;但是我还想保留这图像现在的形式&#xff0c;可以尝试像下面这样做&#xff1a; 右击第一个图&#xff0c;出现下面&#xff0c;选择Book[sheet1] 选择工作簿 出…

[STM32 - 野火] - - - 固件库学习笔记 - - -十二.基本定时器

一、定时器简介 STM32 中的定时器&#xff08;TIM&#xff0c;Timer&#xff09;是其最重要的外设之一&#xff0c;广泛用于时间管理、事件计数和控制等应用。 1.1 基本功能 定时功能&#xff1a;TIM定时器可以对输入的时钟进行计数&#xff0c;并在计数值达到设定值时触发中…

Python从0到100(八十六):神经网络-ShuffleNet通道混合轻量级网络的深入介绍

前言&#xff1a; 零基础学Python&#xff1a;Python从0到100最新最全教程。 想做这件事情很久了&#xff0c;这次我更新了自己所写过的所有博客&#xff0c;汇集成了Python从0到100&#xff0c;共一百节课&#xff0c;帮助大家一个月时间里从零基础到学习Python基础语法、Pyth…

04树 + 堆 + 优先队列 + 图(D1_树(D1_基本介绍))

目录 一、什么是树&#xff1f; 二、相关术语 根结点 边 叶子结点 兄弟结点 祖先结点 结点的大小 树的层 结点的深度 结点的高度 树的高度 斜树 一、什么是树&#xff1f; 树是一种类似于链表的数据结构&#xff0c;不过链表的结点是以线性方式简单地指向其后继结…

Rust语言进阶之文件处理:std::fs用法实例(九十九)

简介&#xff1a; CSDN博客专家、《Android系统多媒体进阶实战》一书作者 新书发布&#xff1a;《Android系统多媒体进阶实战》&#x1f680; 优质专栏&#xff1a; Audio工程师进阶系列【原创干货持续更新中……】&#x1f680; 优质专栏&#xff1a; 多媒体系统工程师系列【…

flowable expression和json字符串中的双引号内容

前言 最近做项目&#xff0c;发现了一批特殊的数据&#xff0c;即特殊字符"&#xff0c;本身输入双引号也不是什么特殊的字符&#xff0c;毕竟在存储时就是正常字符&#xff0c;只不过在编码的时候需要转义&#xff0c;转义符是\&#xff0c;然而转义符\也是特殊字符&…

学习数据结构(5)单向链表的实现

&#xff08;1&#xff09;头部插入 &#xff08;2&#xff09;尾部删除 &#xff08;3&#xff09;头部删除 &#xff08;4&#xff09;查找 &#xff08;5&#xff09;在指定位置之前插入节点 &#xff08;6&#xff09;在指定位置之后插入节点 &#xff08;7&#xff09;删除…

14-8C++STL的queue容器

一、queue容器 (1)queue容器的简介 queue为队列容器&#xff0c;“先进先出”的容器 (2)queue对象的构造 queue<T>q; queue<int>que Int;//存放一个int的queue容器 queue<string>queString;//存放一个string的queue容器 (3)queue容器的push()与pop()方…

算法基础学习——快排与归并(附带java模版)

快速排序和归并排序是两种速度较快的排序方式&#xff0c;是最应该掌握的两种排序算法&#xff0c; &#xff08;一&#xff09;快速排序&#xff08;不稳定的&#xff09; 基本思想&#xff1a;分治 平均时间复杂度&#xff1a;O(nlogn) / 最慢O(n^2) / 最快O(n) 步骤&…

团体程序设计天梯赛-练习集——L1-028 判断素数

前言 一道10分的题目&#xff0c;相对来说比较简单&#xff0c;思考的时候要仔细且活跃&#xff0c;有时候在写代码的时候一些代码的出现很多余&#xff0c;并且会影响最后的结果 L1-028 判断素数 本题的目标很简单&#xff0c;就是判断一个给定的正整数是否素数。 输入格式…