《机器学习》—— 通过下采样方法实现逻辑回归分类问题

文章目录

  • 一、什么是下采样方法?
  • 二、通过下采样方法实现逻辑回归分类问题
  • 三、下采样的优缺点

一、什么是下采样方法?

机器学习中的下采样(Undersampling)方法是一种处理不平衡数据集的有效手段,特别是在数据集中某些类别的样本数量明显多于其他类别时。下采样的主要目的是通过减少多数类样本的数量来平衡数据分布,从而提高模型的泛化能力和准确性。

二、通过下采样方法实现逻辑回归分类问题

  • 具体步骤
    • 1、读取并查看数据
    • 2、数据标准化
    • 3、下采样解决样本不均衡问题
    • 4、划分数据集
    • 5、训练模型并建立最优模型
    • 6、传入测试数据集进行测试
  • 1、读取并查看数据
    • 这里有一份含有28万+数据的csv文件

    • 通过pandas方法读取此文件

      # 通过pandas方法读取creditcard.csv文件,并用data变量接收
      data = pd.read_csv("creditcard.csv")
      data.head()  # 查看data的前几行,默认是5行
      
    • 如下图所示:
      在这里插入图片描述

    • 这个数据的最后一列“Class”标签用来标注是否正常,0表示正常,1表示异常

    • 我们可以通过画出条形图来观察两类标签的样本个数

      import matplotlib.pyplot as plt
      """绘制条形图,查看正负样本个数"""
      labels_count = pd.Series.value_counts(data['Class'])
      plt.title("正负例样本数")
      plt.xlabel("类别")
      plt.ylabel("帧数")
      labels_count.plot(kind='bar')
      plt.show()
      
    • 结果如下:在这里插入图片描述

    • 可以看出0和1标签的样本数据个数相差的非常多,0标签有28万+,而1标签只有几百多,这便是不平衡数据集

  • 2、数据标准化
    • 我们数据的倒数第二(Amount)列可以看出,这一列的特征数值,比其他列特征数值要大很多,如果不做调整就传入模型训练,将会占有很大的权重,导致最后的结果很大的程度上都只受这一个特征的影响
    • 通过观察,可以发现,前面的特征数据都是在-1~1之间,所以我们可以用Z标准化的方法,改变其数值范围
      from sklearn.preprocessing import StandardScaler
      """数据标准化:Z标准化"""
      scaler = StandardScaler()
      # a = data[['Amount']]  # 返回dataframe数据,而不是series
      # 用StandardScaler中的fit_transform实现Z标准化
      data['Amount'] = scaler.fit_transform(data[['Amount']])
      
    • 结果如下:
      在这里插入图片描述
  • 3、下采样解决样本不均衡问题
    • 通过随机抽取0特征标签中的数据并与1特征标签数量相同,并将两个特征拼接为一个新的数据集

      # 数据的第一列(Time)没有作用,删除
      data = data.drop(['Time'], axis=1)  # 删除无用列"""下采样解决样本不均衡问题"""
      positive_eg = data[data['Class'] == 0]  # 获取所有标签(Class)为0的数据
      negative_eg = data[data['Class'] == 1]  # 获取所有标签(Class)为1的数据
      np.random.seed(seed=3)    # 随机种子,保证每次执行这个代码,随机抽选的结果都是一样
      positive_eg = positive_eg.sample(len(negative_eg))   # sample 表示随机从参数里面选择数据,并和1标签的数据数量相同
      # 拼接数据
      data_c = pd.concat([positive_eg, negative_eg])   # 把两个pandas数据组合为一个
      
    • 可以再次通过绘制条形图观察数据

      labels_count = pd.value_counts(data_c['Class'])
      plt.title("正负例样本数")
      plt.xlabel("类别")
      plt.ylabel("帧数")
      labels_count.plot(kind='bar')
      plt.show()
      
    • 结果如下:
      在这里插入图片描述

  • 4、划分数据集
    • 这里我们划分成两类数据集,一类是经过下采样处理后,形成的小部分数据集,另一类是划分原始数据集
    • 划分下采样后的数据集用于模型训练,划分原数据集最后传入模型预测出结果,观察模型的性能是否有所提高
      from sklearn.model_selection import train_test_split
      # 对下采样数据划分
      x_s = data_c.drop('Class', axis=1)  # 去除标签列作为训练数据
      y_s = data_c.Class  # 得到标签列
      # 划分出30%的测试集,并抛出随机种子,为了后面每次的运行,随机划分的都是相同的数据
      x_s_train, x_s_test, y_s_train, y_s_test = train_test_split(x_s, y_s, test_size=0.3, random_state=0)# 对原数据划分
      x = data.drop('Class', axis=1)
      y = data.Class
      x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=0)
      
  • 5、训练模型并建立最优模型
    • 交叉验证选择较优惩罚因子

    • 建立最优模型

      # 交叉验证选择较优惩罚因子
      scores = []
      c_param_range = [0.01, 0.1, 1, 10, 100]  # 参数
      for i in c_param_range:  # 第1次循环的时候C=0.01,5个逻辑回归模型lr = LogisticRegression(C=i, penalty='l2', solver='lbfgs', max_iter=1000)score = cross_val_score(lr, x_s_train, y_s_train, cv=8, scoring='recall')  # 交叉验证score_mean = sum(score) / len(score)  # 交叉验证后的值 召回率scores.append(score_mean)  # 存放所有的交叉验证召回率print(score_mean)  # 将不同的C参数分别传入模型, 分别看看哪个模型效果更好best_c = c_param_range[np.argmax(scores)]  # 找到scores中最大的值对应的C参数
      print("........最优惩罚因子为:{}........".format(best_c))"""建立最优模型"""
      lr = LogisticRegression(C=best_c, penalty='l2', max_iter=1000)
      lr.fit(x_s_train, y_s_train)
      
    • 运行结果为:

  • 6、传入测试数据集进行测试
    • predict 方法接受一个数组(或类似数组的结构,如列表的列表、Pandas DataFrame等),其中包含了要预测的目标变量的新数据点。然后,它使用训练好的模型对这些数据点进行预测,并返回一个包含预测结果的数组

    • metrics.classification_report 是 scikit-learn(一个流行的 Python 机器学习库)中的一个函数,用于展示主要分类指标的文本报告。这个函数特别适用于评估分类模型的性能,尤其是在处理多类分类问题时。它提供了每个类别的精确度(precision)、召回率(recall)、F1 分数(F1-score)和支持度(support,即每个类别的真实样本数量)的详细报告。

      from sklearn import metrics# 传入下采样后的测试数据
      test_s_predicted = lr.predict(x_s_test)
      print(metrics.classification_report(y_s_test, test_s_predicted))# 传入原数据的测试数据
      test_predicted = lr.predict(x_test)
      print(metrics.classification_report(y_test, test_predicted))
    • 结果如下:
      在这里插入图片描述

    • 下面是未使用下采样方法,使用原数据进行模型训练后的结果
      在这里插入图片描述

    • 对比两次不同数据训练出的结果可以看出,通过下采样的方法处理数据后可以大大提高模型的性能

三、下采样的优缺点

  • 优点:
    • 提升分类器准确率:通过减少多数类样本的数量,使得数据集中不同类别的样本数量更加均衡,从而有助于提升分类器对少数类样本的识别能力,进而提升整体分类准确率。
    • 降低训练时间:由于数据集的大小减少,模型的训练时间也会相应缩短。
    • 降低过拟合风险:减少多数类样本的数量可以降低模型对多数类样本的过度拟合,提高模型的泛化能力。
  • 缺点:
    • 降低数据集代表性:随机欠采样可能会剔除一些重要的多数类样本,导致数据集的代表性降低。这可能会影响模型的性能,特别是当被剔除的样本包含对分类任务至关重要的信息时。
    • 信息损失:由于剔除了部分多数类样本,数据集中的信息量也会相应减少。这可能会导致模型在训练过程中无法充分学习到多数类的特征分布,从而影响模型的性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/408300.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【每日一题】【区间合并】【贪心 模拟】多米诺骨牌 牛客小白月赛99 E题 C++

牛客小白月赛99 E题 多米诺骨牌 题目背景 牛客小白月赛99 题目描述 样例 #1 样例输入 #1 3 6 1 1 1 1 3 2 1 4 3 2 7 9 11 6 2 1 1 1 3 2 1 4 3 2 7 9 11 5 4 1 4 1 1 2 1 2 3 6 8样例输出 #1 3 6 5做题思路 按照玩多米诺骨牌的方式。 先将多米诺骨牌按照骨牌位置从小…

Python二级知识点

在阅读之前,感谢大家的关注和点赞。祝你们都能心想事成、健健康康。 一.数据流程图 一般这道题是经常考的,有向箭头--->表示数据流。圆圈○表示加工处理。 二.字典如何比较大小 字典类型是如何比较大小的呢,是使用字典的键来比较大小&…

redis | Django小项目之Mysql数据库和Redis缓存的应用

Django小项目 需求整体架构图技术细节环境配置各文件配置settings.pyurls.pyviews.pyuser_update.html 结果相关代码补充r.hgetall(cacahe_key)new_data {k.decode():v.decode() for k,v in data.items()} 需求 整体架构图 技术细节 环境配置 django-admin startprojrct rmysi…

zdppy+vue3+onlyoffice文档管理系统实战 20240823上课笔记 zdppy_cache框架的低代码实现

遗留问题 1、封装API2、有账号密码3、查询所有有效的具体数据,也就是缓存的所有字段 封装查询所有有效具体数据的方法 基本封装 def get_all(self, is_activeTrue, limit100000):"""遍历数据库中所有的key,默认查询所有没过期的:para…

深度学习一(Datawhale X 李宏毅苹果书 AI夏令营)

一,机器学习基础 机器学习(Machine Learning, ML)是让机器具备学习能力的过程,其核心在于使机器能够自动寻找并应用复杂的函数,以解决各种任务如语音识别、图像识别和策略决策(如AlphaGo)。这些…

顺序表的顺序表示—动态分配

顺序表的顺序表示—动态分配 代码实现 #include <stdio.h> #include <stdlib.h> #define InitSize 15 // 初始化扩容长度typedef struct{int *data; // 动态分配数组的指针int MaxSize;int length; // 当前长度 }SeqList;void InitList(SeqList &L){// 申请一…

得峰(Deffad)A17G本本 - 安装debian12

文章目录 得峰(Deffad)A17G本本 - 安装debian12概述笔记电源插头设置硬件参数修复win10预装的软件列表做debain12的安装U盘从U盘启动引导用U盘装debian12通过U盘安装debian12到本本原有硬盘上成功配置debian12备注备注END 得峰(Deffad)A17G本本 - 安装debian12 概述 和同学讨…

YOLOv9改进策略【卷积层】| 利用MobileNetv4中的UIB、ExtraDW优化RepNCSPELAN4

一、本文介绍 本文记录的是利用ExtraDW优化YOLOv9中的RepNCSPELAN4&#xff0c;详细说明了优化原因&#xff0c;注意事项等。ExtraDW是MobileNetv4模型中提出的新模块&#xff0c;允许以低成本增加网络深度和感受野&#xff0c;具有ConvNext和IB的组合优势。可以在提高模型精度…

uni-app项目搭建和模块介绍

工具:HuilderX noed版本:node-v17.3.1 npm版本:8.3.0 淘宝镜像:https://registry.npmmirror.com/ 未安装nodejs可以进入这里https://blog.csdn.net/a1241436267/article/details/141326585?spm1001.2014.3001.5501 目录 1.项目搭建​编辑 2.项目结构 3.使用浏览器运行…

解决MySQL的PacketTooBigException异常问题

一、背景 在大数据量导入mysql的时候&#xff0c;提示错误Cause: com.mysql.cj.jdbc.exceptions.PacketTooBigException: Packet for query is too large 原因是MySQL的max_allowed_packet设置最大允许接收的数据包过小引起的&#xff0c;默认的max_allowed_packet如果不设置&…

Qt 环境搭建

sudo apt-get upadte sudo apt-get install qt4-dev-tools sudo apt-get install qtcreator sudo apt-get install qt4-doc sudo apt-get install qt4-qtconfig sudo apt-get install qt-demos编译指令 qmake -projectqmakemake实现Ubuntu20,04 与Windows之间的复制粘贴 安装o…

API 的多版本管理,如何在 Apifox 中操作?

开放 API 是技术团队向外部提供服务和数据的关键手段。随着业务的发展和技术的更新&#xff0c;API 也需要不断进行版本迭代。这种迭代通常是为了满足市场需求&#xff0c;优化现有功能&#xff0c;增加新特性&#xff0c;或者修复漏洞。 在多个版本共存的情况下&#xff0c;团…

NLP从零开始------12. 关于前十一章补充(英文分词)

相较于基础篇章&#xff0c;这一部分相较于基础篇减少了很多算法推导&#xff0c;多了很多代码实现。 1.英文词规范化 英文词规范化一般分为标准化缩写,大小写相互转化&#xff0c;动词目态转化等。 1.1 大小写折叠 大小写折叠( casefolding) 是将所有的英文大写字母转化成小…

stm32MX+freertos在创建task时,选项的含义

任务名称&#xff08;Task Name&#xff09;&#xff1a; 用于标识任务的名称&#xff0c;便于调试和日志记录。 优先级&#xff08;Priority&#xff09;&#xff1a; 任务的执行优先级。FreeRTOS支持多个优先级&#xff0c;高优先级的任务会优先于低优先级的任务执行。 堆栈…

ubuntu20.04源码编译安装qemu(qemu8.2)

ubuntu20.04源码安装qemu8.2 本文用于记录在ubuntu20中源码编译安装qemu8.2&#xff0c;同时也希望能够对你有所帮助。 一、download qemu 根据自己的需求下载对应版本的qemu源码压缩包。 https://github.com/qemu/qemu/tags二、build qemu 解压缩后&#xff0c;执行下述命令。…

SpringBoot百万行Excel导入MySQL实践

在公司开发时&#xff0c;客户说需要支持大数据量excel导入&#xff0c;所以打算写一篇文章记录下思路和优化过程。 一、前期准备 首先我们选用的肯定是阿里出品的EasyExcel&#xff0c;对比poi和jxl占内存更少 easyexcel官方网站准备测试的数据库和excel文件&#xff0c;已经…

-Wl,-rpath= 编译器链接器指定动态库路径 与 LD_LIBRARY_PATH

实例先行&#xff0c; 1&#xff0c;情景 三互相依赖的小项目&#xff1a; &#xff08;1&#xff09;libbottom.so&#xff0c;无特别依赖&#xff0c;除系统文件 &#xff08;2&#xff09;libtop.so&#xff0c;依赖libbottom.so &#xff08;3&#xff09;app 可执行程…

springboot admin监控

服务端搭建 maven的依赖&#xff0c;包括服务端和客户端&#xff0c;以及注册到nacos上面 <?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://maven.apache.org/POM/4.0.0" xmlns:xsi"http://www.w3.org/2001/XML…

AI绘制思维导图:使用SpringBoot和Vue实现智能可视化

目录 引言&#xff1a; 思维导图的重要性和应用场景&#xff1a; AI在思维导图绘制中的应用&#xff1a; 概述SpringBoot和Vue框架的特点&#xff1a; 第一部分&#xff1a;思维导图概述 思维导图的定义和历史 思维导图的结构和组成部分 思维导图在不同领域的应用案例 …

Linux 进程 | 进程地址空间

文章目录 进程地址空间程序地址空间进程地址空间 进程地址空间 程序地址空间 地址空间一共有如下的几个区域&#xff0c;从下到上地址逐渐增加&#xff0c;其中栈区的空间是从上往下使用&#xff0c;即从高地址往低地址增长&#xff1b;堆区的空间是从下往上使用&#xff0c;…