sklearn中常用数据集简介

scikit-learn库中提供了包括分类、回归、聚类、降维等多种机器学习任务所需的常用数据集,方便进行实验和研究,它们主要被封装在sklearn.datasets中,本文对其中一些常用的数据集进行简单的介绍。

1.Iris(鸢尾花)数据集

该数据集包含150个鸢尾花样本,分为3个品种,每个品种50个样本。每个样本包含4个特征:花萼长度、花萼宽度、花瓣长度、花瓣宽度。目的是使用这4个特征来对鸢尾花进行分类。scikit-learn中该数据集主要封装在sklearn.datasets.load_iris()中,使用方法如下:

from sklearn.datasets import load_iris# 加载数据集
iris = load_iris()# 打印数据集的描述
print(iris.DESCR)# 打印特征名
print(iris.feature_names)# 打印标签类别
print(iris.target_names)# 获取特征矩阵和目标向量
X = iris.data
y = iris.target

在上面的代码中,load_iris() 方法返回一个包含Iris数据集的对象 iris 。可以通过 iris.DESCR、iris.feature_names、iris.target_names 属性打印出数据集的描述、特征名、标签类别。然后,我们可以使用 iris.data 属性获取特征矩阵,使用 iris.target 属性获取标签向量。特征矩阵 X 是一个包含150个样本和4个特征的二维数组,目标向量 y 是一个包含150个元素的一维数组,每个元素表示对应样本的类别。

2.Wine(葡萄酒)数据集

Wine数据集也是一个分类问题的数据集,包含了三个葡萄酒品种(class)的13种化学特征,一共有178个样本。这个数据集是由美国加州大学欧文分校(UCI)提供的,最初是为了研究酒的化学成分和葡萄酒品种之间的关系而构建的。

Wine数据集中的三个葡萄酒品种分别是:

  • Class 1: 59个样本

  • Class 2: 71个样本

  • Class 3: 48个样本

13个化学特征分别是:

  • Alcohol(酒精)

  • Malic acid(苹果酸)

  • Ash(灰分)

  • Alcalinity of ash(灰的碱度)

  • Magnesium(镁)

  • Total phenols(总酚类化合物)

  • Flavanoids(类黄酮)

  • Nonflavanoid phenols(非类黄酮酚)

  • Proanthocyanins(原花青素)

  • Color intensity(颜色强度)

  • Hue(色调)

  • OD280/OD315 of diluted wines(稀释葡萄酒的OD280/OD315比值)

  • Proline(脯氨酸)

Wine数据集使用方法和鸢尾花数据集是类似的:

from sklearn.datasets import load_winewine = load_wine()
X, y = wine.data, wine.target

其中,X代表数据集中的13个特征,y代表数据集中的三个葡萄酒品种(class)。

3.Boston(波士顿房价)数据集

Boston数据集则是一个回归问题的经典数据集,包含了美国波士顿地区房屋的14个特征,一共有506个样本。这个数据集同样是由美国加州大学欧文分校(UCI)提供的,我们通常用来研究房屋价格和房屋特征之间的关系。

Boston数据集中的14个特征分别是:

  • CRIM:城镇人均犯罪率

  • ZN:占地面积超过25000平方英尺的住宅用地比例

  • INDUS:城镇非零售业务占地面积的比例

  • CHAS:查尔斯河虚拟变量(如果河流边界,则为1;否则为0)

  • NOX:一氧化氮浓度(每千万分之一)

  • RM:住宅平均房间数

  • AGE:1940年之前建造的自用房屋的比例

  • DIS:到波士顿五个就业中心的加权距离

  • RAD:放射性公路的可达性指数

  • TAX:每10,000美元的全值财产税率

  • PTRATIO:城镇师生比例

  • B:1000(Bk - 0.63)^ 2其中Bk是城镇黑人的比例

  • LSTAT:人口中地位低下者的百分比

  • MEDV:自住房屋房价中位数,以千美元计

该数据集使用方法如下:

from sklearn.datasets import load_bostonboston = load_boston()
X, y = boston.data, boston.target

其中,X代表数据集中的14个特征,y代表数据集中的自住房屋房价中位数的目标变量。

4.digits(手写数字)数据集

Digits数据集是一个手写数字识别数据集,它包含了1797张8x8像素的数字图像。每张图像都被转换为64维的特征向量,每个特征表示图像中的一个像素点。每张图像都被标记为0到9中的一个数字,表示图像所代表的数字。这个数据集非常适合用于机器学习中的图像分类问题。

在sklearn中,Digits数据集可以通过以下代码进行加载:

from sklearn.datasets import load_digitsdigits = load_digits()

按上述步骤执行完之后,digits对象同样包含两个主要属性:data和target。digits.data保存的是特征矩阵,它是一个1797x64的数组,每一行代表一张图像的特征向量。标签保存在digits.target中,它是一个长度为1797的一维数组,每个元素代表相应图像的数字标签。我们使用类似的方法可以导出特征和标签:

X, y = boston.data, boston.target

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/478681.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

时间请求参数、响应

(7)时间请求参数 1.默认格式转换 控制器 RequestMapping("/commonDate") ResponseBody public String commonDate(Date date){System.out.println("默认格式时间参数 date > "date);return "{module : commonDate}"; }…

SpringBoot(9)-Dubbo+Zookeeper

目录 一、了解分布式系统 二、RPC 三、Dubbo 四、SpringBootDubboZookeeper 4.1 框架搭建 4.2 实现RPC 一、了解分布式系统 分布式系统:由一组通过网络进行通信,为了完成共同的任务而协调工作的计算机节点组成的系统 二、RPC RPC:远程…

单片机学习笔记 8. 矩阵键盘按键检测

更多单片机学习笔记:单片机学习笔记 1. 点亮一个LED灯单片机学习笔记 2. LED灯闪烁单片机学习笔记 3. LED灯流水灯单片机学习笔记 4. 蜂鸣器滴~滴~滴~单片机学习笔记 5. 数码管静态显示单片机学习笔记 6. 数码管动态显示单片机学习笔记 7. 独立键盘 目录 0、实现的…

道品智能科技移动式水肥一体机:农业灌溉施肥的革新之选

在现代农业的发展进程中,科技的力量正日益凸显。其中,移动式水肥一体机以其独特的可移动性、智能化以及实现水肥一体化的卓越性能,成为了农业领域的一颗璀璨新星。它不仅改变了传统的农业灌溉施肥方式,更为农业生产带来了高效、精…

android 音效可视化--Visualizer

Visualizer 是使应用程序能够检索当前播放音频的一部分以进行可视化。它不是录音接口,仅返回部分低质量的音频内容。但是,为了保护某些音频数据的隐私,使用 Visualizer 需要 android.permission.RECORD_AUDIO权限。传递给构造函数的音频会话 …

计算机网络八股整理(一)

计算机网络八股文整理 一:网络模型 1:网络osi模型和tcp/ip模型分别介绍一下 osi模型是国际标准的网络模型,它由七层组成,从上到下分别是:应用层,表示层,会话层,传输层,…

利用Python爬虫获得1688按关键字搜索商品:技术解析

在电商领域,1688作为中国领先的B2B电商平台,其商品搜索功能对于商家来说具有极高的价值。通过获取搜索结果,商家可以更好地了解市场趋势,优化产品标题,提高搜索排名。本文将介绍如何使用Python编写爬虫,以获…

Spring Boot集成MyBatis-Plus:自定义拦截器实现动态表名切换

Spring Boot集成MyBatis-Plus:自定义拦截器实现动态表名切换 一、引言 介绍动态表名的场景需求,比如多租户系统、分表分库,或者不同业务模块共用一套代码但操作不同表。说明 MyBatis-Plus 默认绑定固定表名的问题。 二、项目配置 1. 集成 M…

(原创)Android Studio新老界面UI切换及老版本下载地址

前言 这两天下载了一个新版的Android Studio,发现整个界面都发生了很大改动: 新的界面的一些设置可参考一些博客: Android Studio新版UI常用设置 但是对于一些急着开发的小伙伴来说,没有时间去适应,那么怎么办呢&am…

数据新时代:如何选择现代数据治理平台(上)

谈现代数据治理系统的十大架构特征 最近一位老友找到我,咨询他的数据治理平台到底该不该换,背景是这样的:若干年前采购了一个市场主流的数据治理平台,功能大概就是数据治理三件套——标准、元数据和质量等经典数据治理的功能。现…

抖音SEO矩阵系统:开发技术分享

市场环境剖析 短视频SEO矩阵系统是一种策略,旨在通过不同平台上的多个账号建立联系,整合同一品牌下的各平台粉丝流量。该系统通过遵循每个平台的规则和内容要求,输出企业和品牌形象,以矩阵形式增强粉丝基础并提升商业价值。抖音作…

从零开始打造个人博客:我的网页设计之旅

✅作者简介:2022年博客新星 第八。热爱国学的Java后端开发者,修心和技术同步精进。 🍎个人主页:Java Fans的博客 🍊个人信条:不迁怒,不贰过。小知识,大智慧。 ✨特色专栏&#xff1a…

STM32F103C8T6实时时钟RTC

目录 前言 一、RTC基本硬件结构 二、Unix时间戳 2.1 unix时间戳定义 2.2 时间戳与日历日期时间的转换 2.3 指针函数使用注意事项 ​三、RTC和BKP硬件结构 四、驱动代码解析 前言 STM32F103C8T6外部低速时钟LSE(一般为32.768KHz)用的引脚是PC14和PC…

Jmeter中的定时器

4)定时器 1--固定定时器 功能特点 固定延迟:在每个请求之间添加固定的延迟时间。精确控制:可以精确控制请求的发送频率。简单易用:配置简单,易于理解和使用。 配置步骤 添加固定定时器 右键点击需要添加定时器的请求…

Fakelocation Server服务器/专业版 ubuntu

前言:需要Ubuntu系统 Fakelocation开源文件系统需求 Ubuntu | Fakelocation | 任务一 任务一 更新Ubuntu(安装下载不再赘述) sudo -i # 提权 sudo apt update # 更新软件包列表 sudo apt upgrade # 升级已安装的软…

5.5 W5500 TCP服务端与客户端

文章目录 1、TCP介绍2、W5500简介2.1 关键函数socketlistensendgetSn_RX_RSRrecv自动心跳包检测getSn_SR 1、TCP介绍 TCP 服务端: 创建套接字[socket]:服务器首先创建一个套接字,这是网络通信的端点。绑定套接字[bind]:服务器将…

超高流量多级缓存架构设计!

文章内容已经收录在《面试进阶之路》,从原理出发,直击面试难点,实现更高维度的降维打击! 文章目录 电商-多级缓存架构设计多级缓存架构介绍多级缓存请求流程负载均衡算法的选择轮询负载均衡一致性哈希负载均衡算法选择 应用层 Ngi…

信创改造 - TongRDS 替换 Redis

记得开放 6379 端口哦 1)首先在服务器上安装好 TongRDS 2)替换 redis 的 host,post,passwd 3)TongRDS 兼容 jedis # 例如:更改原先 redis 中对应的 host,post,passwd 改成 TongRDS…

vue3 uniapp 扫普通链接或二维码打开小程序并获取携带参数

vue3 uniapp 扫普通链接或二维码打开小程序并获取携带参数 微信公众平台添加配置 微信公众平台 > 开发管理 > 开发设置 > 扫普通链接二维码打开小程序 配置链接规则需要下载校验文档给后端存入服务器中,保存配置的时候会校验一次,确定当前的配…

Git(一)基本使用

目录 一、使用git -v 查看安装git版本 二、使用mkdir 创建一个文件,并使用 git init 在该目录下创建一个本地仓库, 三、通过git clone命令接入线上仓库 四、使用git status查看仓库状态信息 五、利用echo写入一个文件 并使用cat进行查看 【Linux】e…