特征工程技巧——OneHot编码

我们以Kaggle比赛里面的一个数据集跟一个公开代码为例去解释我们的OneHot编码。

简单来说,独热编码是一种将类别型变量转换为二进制表示的方法,其中每个类别被表示为一个向量,向量的长度等于类别的数量,其中只有一个元素为1,其余元素为0。例如,如果有三个类别(A、B、C),则独热编码可能如下所示:

  • A: [1, 0, 0]
  • B: [0, 1, 0]
  • C: [0, 0, 1]

独热编码的主要优点是它将类别之间的关系消除,使得数据更适合用于机器学习算法,因为它避免了算法误认为类别之间存在顺序或距离关系。

训练集

测试集

 1、导入我们相应的包

!pip install rdkit

RDKit是一个开源的化学信息学工具包,用于分子建模和化学信息处理。它提供了一系列功能强大的工具,可以用于分子描述符计算、药物设计、虚拟筛选、化学信息的可视化等任务。

!pip install duckdb

DuckDB是一个嵌入式的SQL数据库管理系统(DBMS),旨在提供高性能的数据查询和分析。它主要用于处理大规模数据集和分析任务,并且可以与现有的数据科学工具和应用程序集成。

2、数据准备

import duckdb
import pandas as pdtrain_path = '/kaggle/input/leash-predict-chemical-bindings/train.parquet'
test_path = '/kaggle/input/leash-predict-chemical-bindings/test.parquet'con = duckdb.connect()df = con.query(f"""(SELECT *FROM parquet_scan('{train_path}')WHERE binds = 0ORDER BY random()LIMIT 30000)UNION ALL(SELECT *FROM parquet_scan('{train_path}')WHERE binds = 1ORDER BY random()LIMIT 30000)""").df()con.close()
  • 这部分代码连接到了一个DuckDB数据库,并从训练数据的parquet文件中获取数据。它选择了相等数量的绑定(binds=1)和非绑定(binds=0)的样本,以避免模型对某一类别的偏好。
  • 查询语句将绑定为0和绑定为1的样本合并到一个DataFrame中,每个类别各30000个样本。最终的DataFrame包含了分子数据以及其对应的标签。
  • con.query() 用于执行 SQL 查询,该查询从指定的 .parquet 文件中检索数据。
  • con.close()是用于关闭与数据库的连接,它的作用是释放资源并断开与数据库的通信连接。在使用数据库时,连接是有限资源,因此在不再需要连接时应该显式地关闭它,以释放资源并避免资源泄露。

2、特征预处理

  • from rdkit import Chem
    from rdkit.Chem import AllChem
    from sklearn.model_selection import train_test_split
    from sklearn.metrics import average_precision_score
    from sklearn.preprocessing import OneHotEncoder
    import xgboost as xgb# Convert SMILES to RDKit molecules
    df['molecule'] = df['molecule_smiles'].apply(Chem.MolFromSmiles)# Generate ECFPs
    def generate_ecfp(molecule, radius=2, bits=1024):if molecule is None:return Nonereturn list(AllChem.GetMorganFingerprintAsBitVect(molecule, radius, nBits=bits))df['ecfp'] = df['molecule'].apply(generate_ecfp)
  • 这部分代码使用RDKit库将SMILES字符串转换为RDKit的分子对象,并定义了一个函数generate_ecfp来生成ECFP特征

  • generate_ecfp函数计算了每个分子的ECFP特征,并将其作为新的特征列添加到DataFrame中。

3、模型训练

from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split# One-hot encode the protein_name
onehot_encoder = OneHotEncoder(sparse_output=False)
protein_onehot = onehot_encoder.fit_transform(df['protein_name'].values.reshape(-1, 1))# Combine ECFPs and one-hot encoded protein_name
X = [ecfp + protein for ecfp, protein in zip(df['ecfp'].tolist(), protein_onehot.tolist())]
y = df['binds'].tolist()# Split the data into train and test sets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)# Create and train the random forest model
rf_model = RandomForestClassifier(n_estimators=100, random_state=42)
rf_model.fit(X_train, y_train)
  • 这部分代码使用随机森林分类器对数据进行训练。首先,使用 fit_transform 方法对DataFrame中的 'protein_name' 列进行编码,并将结果存储在 protein_onehot 中。对蛋白质名称进行了独热编码.values.reshape(-1, 1)这部分代码将选定的列中的数据转换为 NumPy 数组,并对其进行重塑,将其变成一个列向量。.values 将 DataFrame 列转换为 NumPy 数组,.reshape(-1, 1) 将数组重塑为一个列向量,其中 -1 表示未知的行数,而 1 表示只有一列。
  • 通过使用列表推导式,将每个ECFPs特征向量和对应的独热编码蛋白质名称逐一组合,并将结果存储在 X 中,作为模型的输入特征。
  • 训练数据被划分为训练集和验证集,并使用随机森林模型进行训练。
  • random_state=42 用于设置随机种子,保证划分的结果可以重现。

4、模型评估

from sklearn.metrics import average_precision_score# Make predictions on the test set
y_pred_proba = rf_model.predict_proba(X_test)[:, 1]  # Probability of the positive class# Calculate the mean average precision
map_score = average_precision_score(y_test, y_pred_proba)
print(f"Mean Average Precision (mAP): {map_score:.2f}")
  • 这部分代码使用训练好的随机森林模型在测试集上进行预测,得到了每个样本属于正类的概率,并将结果存储在 y_pred_proba 中。
  • 这部分代码用测试集上的预测结果评估了模型的性能。使用平均精度(Average Precision)评估模型在验证集上的性能。

5、测试预测

import os# Process the test.parquet file chunk by chunk
test_file = '/kaggle/input/leash-predict-chemical-bindings/test.csv'
output_file = 'submission.csv'# Read the test.parquet file into a pandas DataFrame
for df_test in pd.read_csv(test_file, chunksize=100000):# Generate ECFPs for the molecule_smilesdf_test['molecule'] = df_test['molecule_smiles'].apply(Chem.MolFromSmiles)df_test['ecfp'] = df_test['molecule'].apply(generate_ecfp)# One-hot encode the protein_nameprotein_onehot = onehot_encoder.transform(df_test['protein_name'].values.reshape(-1, 1))# Combine ECFPs and one-hot encoded protein_nameX_test = [ecfp + protein for ecfp, protein in zip(df_test['ecfp'].tolist(), protein_onehot.tolist())]# Predict the probabilitiesprobabilities = rf_model.predict_proba(X_test)[:, 1]# Create a DataFrame with 'id' and 'probability' columnsoutput_df = pd.DataFrame({'id': df_test['id'], 'binds': probabilities})# Save the output DataFrame to a CSV fileoutput_df.to_csv(output_file, index=False, mode='a', header=not os.path.exists(output_file))

这部分代码用训练好的随机森林模型对测试数据进行预测,并将结果保存到CSV文件中。

代码地址:Leash Tutorial - ECFPs and Random Forest | Kaggle

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/337751.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Leetcode刷题笔记6

34. 在排序数组中查找元素的第一个和最后一个位置 34. 在排序数组中查找元素的第一个和最后一个位置 - 力扣(LeetCode) 解法一:暴力查找 [1, 2, 3, 3, 3, 4, 5] t 3 从前往后扫描暴力查找,最坏情况下O(N) 优化 利用数组有序的…

TCP的重传机制

TCP 是一个可靠的传输协议,解决了IP层的丢包、乱序、重复等问题。这其中,TCP的重传机制起到重要的作用。 序列号和确认号 之前我们在讲解TCP三次握手时,提到过TCP包头结构,其中有序列号和确认号, 而TCP 实现可靠传输…

Artifactory清理二进制文件丢失的制品

一、摘要 当制品上传到 Artifactory 时,Artifactory 会在数据库中记录制品的相关元数据信息,包括文件路径、大小、校验和(如 MD5、SHA1)、上传时间、索引、依赖等。实际的制品二进制文件会存储在指定的存储后端,具体的…

基于Java+SpringBoot+Mybaties-plus+Vue+elememt + uniapp 新闻资讯 的设计与实现

一.项目介绍 本系统分为 后端 和 小程序端 后端:点击登录按钮 设置个人中心、 管理员账号数据维护、 基础数据维护、 短视频信息维护(包括查看短视频留言、短视频收藏)、 论坛维护(增删改查帖子信息,包括查…

docker查看容器目录挂载

查看命令 docker inspect --format{{ json .Mounts }} <container_id_or_name> | jq 示例 docker inspect --format{{ json .Mounts }} af656ae540af | jq输出

一篇文章让你学会专注

专注&#xff0c;字典的释义是&#xff1a;专心注意&#xff1b;精神贯注。 我个人理解的是&#xff1a;用力屏蔽无关的事物&#xff0c;全身心力地专门注意一个事物。 你关心的&#xff0c;才能注意到&#xff0c;注意到了&#xff0c;才能故意地注意&#xff0c;进而全身心力…

【Linux-RTC】

Linux-RTC ■ rtc_device 结构体■ RTC 时间查看与设置■ 1、时间 RTC 查看■ 2、设置 RTC 时间 ■ rtc_device 结构体 Linux 内核将 RTC 设备抽象为 rtc_device 结构体 rtc_device 结构体&#xff0c;此结构体定义在 include/linux/rtc.h 文件中 ■ RTC 时间查看与设置 ■ 1…

服务器主板电池

一、什么是服务器纽扣电池&#xff1f; 服务器纽扣电池&#xff0c;也叫CMOS电池&#xff0c;是一种非常小型的电池&#xff0c;通常与服务器主板上的CMOS芯片相结合&#xff0c;用于储存BIOS设置、时钟和其他关键系统信息。这种电池的体积通常比一枚硬币还小&#xff0c;而且…

d3dcompiler43.dll丢失怎么修复,分享几种有效的修复教程

电脑已经成为我们生活中不可或缺的一部分。然而&#xff0c;由于各种原因&#xff0c;电脑可能会出现一些问题&#xff0c;其中之一就是d3dcompiler43.dll文件丢失。这个文件是DirectX组件之一&#xff0c;用于编译和链接DirectX应用程序。当这个文件丢失时&#xff0c;可能会导…

DataCube 漏洞小结

在这里分享一下通过拖取 DataCube 代码审计后发现的一些漏洞&#xff0c;包括前台的文件上传&#xff0c;信息泄露出账号密码&#xff0c;后台的文件上传。当然还有部分 SQL 注入漏洞&#xff0c;因为 DataCube 采用的是 SQLite 的数据库&#xff0c;所以SQL 注入相对来说显得就…

MAB规范(2):Introduction 介绍

Chapter1 Introduction 1.1 指南目的 MathWorks咨询委员会&#xff08;MAB&#xff09;指南规定了Simulink和Stateflow建模的重要基本规则。这些建模指南的总体目的是让建模者和控制系统模型的使用者能够简单、共同地理解。 指南的主要目标是&#xff1a; • 可读性  提高…

Ubuntu 安装好虚拟环境后,找不到workon 命令

1、安装虚拟环境 pip3 install virtualenv pip3 install virtualenvwrapper 2、安装完成后 workon 命令。 找不到workon 命令 执行&#xff0c;source virtualenvwrapper.sh 执行后&#xff0c;在使用workon命令&#xff0c;即可完成。

day-36 删除链表的倒数第 N 个结点

思路 首先计算出链表的长度&#xff0c;然后删除第n个节点即可&#xff0c;但要注意考虑特殊情况 解题方法 特殊情况&#xff1a;1.删除节点为最后一个节点 2.删除节点为头结点 Code /*** Definition for singly-linked list.* public class ListNode {* int val;* …

MySQL十部曲之九:MySQL优化理论

文章目录 前言概述查询优化查询执行计划EXPLAIN获取表结构信息获取执行计划信息 EXPLAIN 输出格式如何使用EXPLAIN进行优化 范围访问优化单列索引的范围访问多列索引的范围访问 索引合并优化索引合并交叉访问算法索引合并联合访问算法索引合并排序联合访问算法 索引下推优化连接…

使用LeanCloud平台的即时通讯

LeanCloud 是领先的 Serverless 云服务&#xff0c;为产品开发提供强有力的后端支持&#xff0c;旨在帮助开发者降低研发、运营维护等阶段投入的精力和成本。 LeanCloud 整合了各项服务&#xff0c;让开发者能够聚焦在核心业务上&#xff0c;为客户创造更多价值。 *即时通讯 …

5月29日-shell复习

一.Shell概述 1&#xff09;Linux提供的Shell解析器有&#xff1a;sudo cat /etc/shells /bin/sh /bin/bash /usr/bin/sh /usr/bin/bash /bin/tcsh /bin/csh 2&#xff09;bash和sh的关系 cd /bin ll | grep bash 或者使用&#xff1a;ls -l /bin/ | grep bash 3&#xff0…

深入pandas:数据分析

目录 前言 第一点&#xff1a;导入模块 第二点&#xff1a;准备数据 第三点&#xff1a;简单的分析数据 第四点&#xff1a;【重点】数据透支 总结 前言 在数据分析与挖掘的领域&#xff0c;了解如何使用工具和方法来探索数据是至关重要的。本文将探讨如何利用Python中的…

MAB规范(1):概览介绍

前言 MATLAB的MAAB&#xff08;MathWorks Automotive Advisory Board&#xff09;建模规范是一套由MathWorks主导的建模指南&#xff0c;旨在提高基于Simulink和Stateflow进行建模的代码质量、可读性、可维护性和可重用性。这些规范最初是由汽车行业的主要厂商共同制定的&…

如何使用宝塔面板搭建Tipask问答社区网站并发布公网远程访问

文章目录 前言1.Tipask网站搭建1.1 Tipask网站下载和安装1.2 Tipask网页测试1.3 cpolar的安装和注册 2. 本地网页发布2.1 Cpolar临时数据隧道2.2 Cpolar稳定隧道&#xff08;云端设置&#xff09;2.3 Cpolar稳定隧道&#xff08;本地设置&#xff09; 3. 公网访问测试4.结语 前…

FreeRTOS基础(四):静态创建任务

上一篇博客&#xff0c;我们讲解了FreeRTOS中如何动态创建任务&#xff0c;那么这一讲&#xff0c;我们从实战出发&#xff0c;规范我们在FreeRTOS下的编码风格&#xff0c;掌握静态创建任务的编码风格&#xff0c;达到实战应用&#xff01; 目录 一、空闲任务和空闲任务钩子…