第2篇 机器学习基础 —(3)机器学习库之Scikit-Learn

前言:Hello大家好,我是小哥谈。Scikit-Learn(简称Sklearn)是Python 的第三方模块,它是机器学习领域当中知名的Python 模块之一,它对常用的机器学习算法进行了封装,包括回归(Regression)、降维(Dimensionality Reduction)、分类(Classfication)和聚类(Clustering)四大机器学习算法。本节课就简单介绍下Scikit-Learn的基本概念、应用场景、安装方法和应用案例!~🌈  

前期回顾:

             第2篇 机器学习基础 —(1)机器学习概念和方式

             第2篇 机器学习基础 —(2)分类和回归

            目录

🚀1.基本概念

🚀2.安装方法

🚀3.应用场景

🚀4.最小二乘法回归

🚀5.支持向量机

🚀1.基本概念

Scikit-Learn是一个Python机器学习库,它提供了各种各样的机器学习算法和工具,包括分类回归聚类降维等等。它是一个非常流行的机器学习库,因为它易于使用、功能强大、文档齐全,并且有一个庞大的社区支持。Scikit-Learn还提供了许多实用工具,如数据预处理、特征提取和模型评估等,这些工具可以帮助你更好地理解和分析数据。

Scikit-Learn的发展始于2007年,由David Cournapeau在Google Summer of Code项目中启动。项目后续得到了许多开发者的贡献,包括INRIA(法国国家信息与自动化研究所),Waikato大学和其他机构。Scikit-Learn的发展历程中,不断地增加新的功能和算法,提高了性能和稳定性,成为了机器学习领域中最受欢迎的库之一。 

Scikit-Learn 具有以下特点:

  • 简单高效的数据挖掘和数据分析工具。
  • 让每个人能够在复杂环境中重复使用。
  • Scikit-Learn是Scipy模块的扩展,是建立在NumPy 和Matplotlib模块的基础上。利用这几大模块的优势,可以大大提高机器学习的效率。
  • 开源,采用BSD 协议,可用于商业。

Scikit-Learn的版本迭代情况:

  1. Scikit-Learn 0.1 - 2007年发布的第一个版本。
  2. Scikit-Learn 0.2 - 2008年发布,增加了更多的分类和聚类算法。
  3. Scikit-Learn 0.3 - 2009年发布,增加了更多的特征选择和数据预处理工具。
  4. Scikit-Learn 0.4 - 2010年发布,增加了更多的回归算法和交叉验证工具。
  5. Scikit-Learn 0.5 - 2011年发布,增加了更多的聚类算法和特征选择工具。
  6. Scikit-Learn 0.6 - 2012年发布,增加了更多的分类算法和特征选择工具。
  7. Scikit-Learn 0.7 - 2013年发布,增加了更多的回归算法和特征选择工具。
  8. Scikit-Learn 0.8 - 2014年发布,增加了更多的聚类算法和特征选择工具。
  9. Scikit-Learn 0.9 - 2015年发布,增加了更多的分类算法和特征选择工具。
  10. Scikit-Learn 0.10 - 2016年发布,增加了更多的回归算法和特征选择工具。
  11. Scikit-Learn 0.11 - 2017年发布,增加了更多的聚类算法和特征选择工具。
  12. Scikit-Learn 0.12 - 2018年发布,增加了更多的分类算法和特征选择工具。
  13. Scikit-Learn 0.13 - 2019年发布,增加了更多的回归算法和特征选择工具。
  14. Scikit-Learn 0.22 - 2019年发布,增加了更多的特征选择和数据预处理工具,以及更好的模型选择和评估工具。
  15. Scikit-Learn 0.23 - 2020年发布,增加了更多的特征选择和数据预处理工具,以及更好的模型选择和评估工具,还增加了对Python 3.8的支持。

🚀2.安装方法

Scikit-Learn 的安装要求如下:

  • Python版本:高于2.7。
  • NumPy 版本:高于1.8.2。
  • SciPy:高于0.13.3。

如果已经安装了NumPy 和Scipy,那么安装Scikit-Learn 最简单的方法是使用pip 工具安装,命令如下:

pip install -U scikit-learn

或者使用conda,命令如下:

conda install scikit-learn

还可以在PyCharm开发环境中安装。运行PyCharm,选择File → Settings 菜单项,打开“Settings”窗口,选择“Project Interpreter”选项,然后单击添加(+)按钮,打开“Available Packages”窗口,在搜索文本框中输入需要添加的模块名称,例如“scikit-learn”,然后在列表中选择需要安装的模块。

注意:尽量选择安装0.21.2 版本,否则运行程序时可能会出现因为模块版本不适合而导致程序出现错误提示“找不到指定的模块”。


🚀3.应用场景

Scikit-Learn是一个广泛使用的Python机器学习库,它提供了许多用于分类、回归、聚类、数据降维、模型选择和数据预处理等任务的工具和算法。因此,Scikit-Learn的应用场景非常广泛,包括但不限于以下几个方面:

  1. 金融领域:用于信用评估、欺诈检测、股票预测等。
  2. 医疗领域:用于疾病诊断、药物研发、基因分析等。
  3. 自然语言处理:用于文本分类、情感分析、机器翻译等。
  4. 图像处理:用于图像分类、目标检测、人脸识别等。
  5. 工业制造:用于质量控制、故障诊断、预测维护等。
  6. 推荐系统:用于个性化推荐、广告投放等。

等等......🍉 🍓 🍑 🍈 🍌 🍐

根据以上所述,对于Scikit-Learn的应用,主要基于以下六个方面:

(1)分类

解释:标识对象所属的类别

举例:垃圾邮件检测,图像识别等

(2)回归

解释:预测与对象关联的连续值属性

举例:药物反应,股票价格等

(3)聚类

解释:自动将相似对象归为一组

举例:客户细分,分组实验成果等

(4)降维

解释:减少要考虑的随机变量的数量

举例:可视化,提高效率等

(5)模型选择

解释:比较,验证和选择参数和模型。

举例:通过参数调整改进精度

(6)预处理

解释:特征提取和归一化

举例:转换输入数据,例如文本,以供机器学习算法使用等。


🚀4.最小二乘法回归

首先了解一下线性回归分析。线性回归是利用数理统计中的回归分析,来确定两种或两种以上变量间,相互依赖的定量关系的一种统计分析与预测的方法,应用十分广泛。在线性回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果线性回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。在Python中,无需理会烦琐的线性回归求解数学过程,直接使用Scikit-Learn中的linear_model模块就可以实现线性回归分析。linear_model 模块中提供了很多线性模型,包括最小二乘法回归、岭回归、Lasso、贝叶斯回归等。本节课主要介绍最小二乘法回归。

首先导入linear_model 模块,程序代码如下:

from sklearn import linear_model

导入linear_model 模块后,在程序中就可以使用相关函数实现线性回归分析。

线性回归是数据挖掘中的基础算法之一,线性回归的思想其实就是解一组方程,得到回归系数。不过在出现误差项之后,方程的解法就存在了改变,一般使用最小二乘法进行计算,所谓“二乘”就是平方的意思,最小二乘法也称为最小平方和,其目的是通过最小化误差的平方和,使得预测值与真值无限接近。linear_model 模块中的LinearRegression 函数用于实现最小二乘法回归。LinearRegression 函数拟合一个带有回归系数的线性模型,使得真实数据和预测数据(估计值)之间的残差平方和最小,与真实数据无限接近。

LinearRegression 函数的语法如下:

linear_model.LinearRegression(fit_intercept=True,normalize=False,copy_X=True,n_jobs=None)

参数说明:

fit_intercept:布尔型值,是否需要计算截距,默认值为True。

normalize:布尔型值,是否需要标准化,默认值为False,和参数fit_intercept有关。当fit_intercept参数值为False时,将忽略该参数;当fit_intercept 参数值为True 时,则回归前,对回归量X进行归一化处理,取均值相减,再除以L2 范数(L2 范数是指向量各元素的平方和,然后开方)。

copy_X :布尔型值,选择是否复制X 数据,默认值True,如果为False,则覆盖X 数据。

n_jobs:整型,代表CPU 工作效率的核数,默认值1,-1 表示跟CPU 的核数一致。

主要属性:

coef_:数组或形状,表示线性回归分析的回归系数。

intercept_:数组,表示截距。

主要方法:

fit(X,y,sample_weight=None):拟合线性模型。

predict(X):使用线性模型返回预测数据。

score(X,y,sample_weight=None):返回预测的确定系数R^2。LinearRegression 函数调用fit 方法来拟合数组X、y,并且将线性模型的回归系数存储在其成员变量的coef_ 属性中。

案例:快速预测房价

实现智能预测房价,假设某地的房屋面积和价格关系如下表所示,下面使用LinearRegression 函数预测面积为170 平方米的房屋的单价。

面积价格
567800
1049000
1569200
20010000
25011000
30012000

代码:

from sklearn import linear_model
import numpy as npx=np.array([[1,56],[2,104],[3,156],[4,200],[5,250],[6,300]])
y=np.array([7800,9000,9200,10000,11000,12000])
clf = linear_model.LinearRegression()
clf.fit (x,y)                    #拟合线性模型
k=clf.coef_                      #回归系数
b=clf.intercept_                 #截距
x0=np.array([[7,170]])#通过给定的x0预测y0,y0=截距+X值*回归系数
y0=clf.predict(x0)                #预测值
print('回归系数:',k)
print('截距:',b)
print('预测值:',y0)

运行程序,输出结果:

回归系数: [1853.37423313  -21.7791411 ]
截距: 7215.950920245397
预测值: [16487.11656442]

🚀5.支持向量机

支持向量机(SVMs)可用于监督学习算法,主要包括分类、回归和异常检测。支持向量分类的方法可以被扩展用作解决回归问题,这个方法被称作支持向量回归。本节介绍支持向量回归函数――LinearSVR函数。LinearSVR 函数是一个支持向量回归的函数,支持向量回归,不仅适用于线性模型,还可以用于对数据和特征之间的非线性关系。避免多重共线性问题,从而提高泛化性能,解决高维问题,语法如下:

sklearn.svm.LinearSVR(epsilon = 0.0,tol = 0.0001,C = 1.0,loss ='epsilon_insensitive',fit_intercept = True,intercept_scaling = 1.0,dual = True,verbose = 0,random_state =None,max_iter = 1000 )

参数说明:

epsilon:float类型值,默认值为0.1。

tol:float类型值,终止迭代的标准值,默认值为0.0001。

C:float类型值,罚项参数,该参数越大,使用的正则化越少,默认值为1.0。

loss :string类型值,损失函数,该参数有两种选项:

epsilon_insensitive:损失函数为L (标准SVR)。

squared_epsilon_insensitive:损失函数为L ,默认值为epsilon_insensitive。

fit_intercept:boolean 类型值,是否计算此模型的截距。如果设置为False,则不会在计算中使用截距(即数据预计已经居中)。默认值为True。

intercept_scaling:float 类型值,当fit_intercept 为True 时,实例向量x 变为[x,self.intercept_scaling]。此时相当于添加了一个特征,该特征将对所有实例都显示为常数值。此时截距变成intercept_scaling特征的权重w 。此时该特征值也参与了罚项的计算。

dual:boolean 类型值,选择算法以解决对偶或原始优化问题。设置为True 时将解决对偶问题,设置为False 时解决原始问题,默认值为True。

verbose:int类型值,是否开启verbose输出,默认值为True。

random_state:int 类型值,随机数生成器的种子,用于在混洗数据时使用。如果是整数,则是随机数生成器使用的种子;如果是RandomState 实例,则是随机数生成器。

max_iter:int类型值,要运行的最大迭代次数。默认值为1000。

coef_:赋予特征的权重,返回array数据类型。

intercept_0:决策函数中的常量,返回array数据类型。

案例:预测“波士顿”的房价

通过Scikit-Learn 自带的数据集“波士顿房价”,实现房价预测,程序代码如下:

代码:

from sklearn.svm import LinearSVR                           #导入线性回归类
from sklearn.datasets import load_boston                     #导入加载波士顿的数据集
from pandas import DataFrame                               #导入DataFrameboston = load_boston()                                     #创建加载波士顿的数据对象#将波士顿的房价数据创建为DataFrame对象
df = DataFrame(boston.data, columns=boston.feature_names)
df.insert(0,'target',boston.target)                          #将价格添加至DataFrame对象中
data_mean = df.mean()                                     #获取平均值
data_std = df.std()                                       #获取标准偏差
data_train = (df - data_mean) / data_std                     #数据标准化
x_train = data_train[boston.feature_names].values            #特征数据
y_train = data_train['target'].values                        #目标数据
linearsvr = LinearSVR(C=0.1)                               #创建LinearSVR对象
linearsvr.fit(x_train, y_train)                             #训练模型#预测,并还原结果
x = ((df[boston.feature_names] - data_mean[boston.feature_names]) / data_std[boston.feature_names]).values#添加预测房价的信息列
df[u'y_pred'] = linearsvr.predict(x) * data_std['target'] + data_mean['target']
print(df[['target', 'y_pred']].head())                        #输出真实价格与预测价格

运行程序,输出结果:

 target     y_pred
0    24.0  28.412710
1    21.6  23.864795
2    34.7  29.944414
3    33.4  28.322685
4    36.2  28.136243

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/179073.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【windows Docker镜像占用许多空间:将数据迁移到D盘】

查看其占据的空间 导出数据到D盘 首先退出docker C:\Users\lxh>wsl --shutdownC:\Users\lxh> C:\Users\lxh>wsl --export docker-desktop-data docker-desktop-data.tar 正在导出,这可能需要几分钟时间。 操作成功完成。C:\Users\lxh> C:\Users\lxh&g…

软件无线电处理平台解决方案:330-基于FMC接口的Kintex-7 XC7K325T PCIeX4 3U PXIe接口卡

基于FMC接口的Kintex-7 XC7K325T PCIeX4 3U PXIe接口卡 一、板卡概述 本板卡基于Xilinx公司的FPGAXC7K325T-2FFG900 芯片,pin_to_pin兼容FPGAXC7K410T-2FFG900 ,支持PCIeX8、64bit DDR3容量2GByte,HPC的FMC连接器,北京太速科…

安达发|汽车零配件在生产上常常会遇到哪些困难?

汽车零配件在生产上常常会遇到许多困难,这些困难涉及到技术、质量、成本和供应链等多个方面。以下是一些常见的困难及其解决方案: 1.技术难题:汽车零配件的生产需要高度的技术支持,尤其是在新材料、新工艺和新设备的应用上。解决技…

【蓝桥每日一题]-二分类型(保姆级教程 篇3) #路标设置 #跳石头

今天接着讲二分题型 目录 题目:路标设置 思路: 题目:跳石头 思路: 题目:路标设置 思路: 求:放n个路标后的最小空旷指数 二分查找:对空旷指数进行二分 二分依据: 该空旷指数下放…

XR Interaction ToolKit

一、简介 XR Interaction Toolkit是unity官方的XR交互工具包。 官方XRI示例地址:https://github.com/Unity-Technologies/XR-Interaction-Toolkit-Examples 2023.3.14官方博客,XRIT v2.3 https://blog.unity.com/engine-platform/whats-new-in-xr-int…

Windows Server 2008安装

1.典型 2.稍后安装操作系统 3.Microsoft Windows 4.尽量虚拟机名称也改一下,我忘记改了 5. 默认40G差不多了,不用修改了 6.直接点完成 7.配置处理器和镜像 8.中文简体 9.现在安装 10.第一个就行(完全安装) 11.我接受&#xff0c…

基于stm32F4的智能宠物喂食器的设计:LVGL界面、定时喂食喂水通风

宠物喂食器 一、功能设计二、元器件选型三、UI设计四、原理图设计五、源代码设计六、成品展示 实物链接:https://m.tb.cn/h.5iCUX6H?tkPL65WXCEipQ CZ3457 一、功能设计 1、设计一个触摸屏作为人机交互 2、通过触摸屏设置时间定时喂食喂水通风 3、获取当前水槽的…

PlantSimulation安装帮助文档端口被占用的解决办法

PlantSimulation安装帮助文档端口被占用的解决办法 从PlantSimulaiton(TPS)2201开始帮助文档开始使用在线,如果使用本地则需要安装本地文档服务器。但是在安装过程中你可能会遇到,5000断开被占用的情况。解决办法如下&#xff1a…

axios 实现请求 loading 效果

前景提要: ts 简易封装 axios,统一 API 实现在 config 中配置开关拦截器 loading 分为全屏 loading 和局部 loading。 axios 中设置 loading 只能设置全屏 loading,因为局部 loading 需要当前局部的 dom,在 axios 中显然拿不到发…

取消Excel打开密码的两种方法

Excel设置了打开密码,想要取消打开密码是由两种方法的,今天分享这两种方法给大家。 想要取消密码是需要直到正确密码的,因为只有打开文件才能进行取消密码的操作 方法一: 是大家常见的取消方法,打开excel文件之后&a…

c++装饰器模式

前言 装饰器模式,就是可以对一个对象无限装饰一些东西,而且可以没有顺序。比如一个人可能只会说出他的名字,但是可以让他再说哈哈,可以说完哈哈之后再说哇哇。如何后面又不想装饰了,不需要改类原来的代码,…

IS200EPSMG1AED 使用Lua创建逻辑脚本或完整程序

IS200EPSMG1AED 使用Lua创建逻辑脚本或完整程序 IS200EPSMG1AED 是一种支持网络的I/O控制器,它执行类似于可编程逻辑控制器(PLC)的控制、逻辑和监控功能。然而,与PLC不同,X-600M是为基于网络的应用而设计的。X-600M可以使用内置网络服务器和…

【256MB+256MB】起,含税低至88元!飞凌嵌入式FET113i-S全国产核心板上市

超低价、超灵活、超全能!飞凌嵌入式FET113i-S全国产核心板正式发布!整板采用100%国产工业级元器件,含税价最低仅需88元! FET113i-S核心板基于全志T113-i工业级处理器开发设计,主频1.2GHz,配备多核多架构&a…

如何开始开发一个跑腿App系统?

1. 确定需求和功能规划 开始开发之前,需明确系统所需的基本功能,包括用户注册、登录、下单、配送员匹配、订单跟踪等。这些功能需要在系统设计之初明确。 2. 技术选型 选择适合的技术栈。前端可以使用框架如React、Vue.js,后端可选择Node…

智慧财务的未来

信息化时代,财务管理不再局限于传统的手工操作,而是借助RPA技术实现了自动化、智能化的转型。智慧财务作为财务管理的一种新模式,将为企业提供更加高效、便捷的服务,使企业能够更好地适应市场需求的变化,在瞬息万变的市…

史上最详细注释,用flask写一个博客系统

文本用flask写个博客系统,源码带有详细注释,通俗易懂,拿去就能用。博客效果如下,博客首页: 这个博客麻雀虽小,但五脏俱全。有如下功能: 博客文章浏览用户注册用户登录/登出发文章/修改文章/删除…

vue:js中合并对象的方法

目前比较常用的一共有三种 1、使用object.assign() 它可以将一个或多个对象的属性复制到目标对象中&#xff0c;第一个参数就是目标对象&#xff0c;这里举个例子&#xff1a; <template><div>{{data}}</div> </template> <script> export de…

陪诊接单系统|陪诊系统助力您获取更好的服务

为了解决陪诊过程中的种种瓶颈和问题&#xff0c;我们开发了一款创新的陪诊接单系统&#xff0c;旨在为客户提供更加高效、专业的陪诊服务。该系统凭借其独特的功能和特点&#xff0c;助力您获取更好的陪诊服务体验。 陪诊系统功能&#xff1a; 1、诊前约号&#xff1a;人工带…

MySql优化经验分享

一条sql的具体执行过程 连接 我们怎么查看MySQL当前有多少个连接&#xff1f; 可以用show status命令&#xff0c;模糊匹配Thread&#xff0c; Show global status like "Thread%" show global variables like wait timeout;—非交互式超时时间&#xff0c;如JDBC…

【数据结构】树家族

目录 树的相关术语树家族二叉树霍夫曼树二叉查找树 BST平衡二叉树 AVL红黑树伸展树替罪羊树 B树B树B* 树 当谈到数据结构中的树时&#xff0c;我们通常指的是一种分层的数据结构&#xff0c;它由节点&#xff08;nodes&#xff09;组成&#xff0c;这些节点之间以边&#xff08…