数据挖掘之认识数据

在数据挖掘过程中,数据的认识是非常重要的一步,它为后续的数据分析、建模、特征选择等工作奠定基础。以鸢尾花数据集(Iris Dataset)数据集之鸢尾花数据集(Iris Dataset)-CSDN博客为例,下面将介绍如何从数据下载到可视化展示进行深入认识。

1. 数据下载

鸢尾花数据集是一个经典的机器学习数据集,通常用于分类任务。这个数据集可以从多个来源获得,包括通过sklearn库直接加载。

from sklearn.datasets import load_iris# 加载鸢尾花数据集
iris = load_iris()# 查看数据集的基本信息
print(iris.keys())
数据集包含以下几个重要部分:
  • data: 特征数据,包含150个样本,每个样本有4个特征(如花萼长度、花萼宽度、花瓣长度、花瓣宽度)。
  • target: 目标标签,包含样本所属的类别(共三类:Setosa, Versicolor, Virginica)。
  • feature_names: 特征的名称(例如 'sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)')。
  • target_names: 类别的名称(例如 'setosa', 'versicolor', 'virginica')。
  • DESCR: 数据集的描述信息。

2. 数据加载与基本信息

使用sklearn加载数据后,可以通过pandas将其转换为DataFrame,更便于查看和操作。

import pandas as pd# 将数据转换为pandas DataFrame
iris_df = pd.DataFrame(data=iris.data, columns=iris.feature_names)# 将目标标签添加到DataFrame中
iris_df['species'] = pd.Categorical.from_codes(iris.target, iris.target_names)# 查看数据集基本信息
print(iris_df.info())# 查看数据集的前几行
print(iris_df.head())

3. 数据统计描述

我们可以查看数据集的统计描述信息,了解每个特征的分布情况。

# 获取数据的统计描述
print(iris_df.describe())

4. 数据可视化

数据可视化可以帮助我们理解特征之间的关系,识别数据的模式,并且能够分辨不同类别样本在特征空间中的分布情况。

4.1 成对关系图(Pairplot)

成对关系图能够展示所有特征之间的两两关系,并且可以通过颜色区分不同类别。

import seaborn as sns# 绘制成对关系图
sns.pairplot(iris_df, hue='species', palette='Set2')
4.2 箱线图(Boxplot)

箱线图能帮助我们观察每个特征的分布情况,并检测是否存在异常值。

# 绘制箱线图
plt.figure(figsize=(10, 6))
sns.boxplot(x='species', y='sepal length (cm)', data=iris_df)
plt.title('Boxplot of Sepal Length by Species')
plt.show()
4.3 热力图(Heatmap)

热力图可以帮助我们了解特征之间的相关性,并观察是否存在多重共线性。

import matplotlib.pyplot as plt
import seaborn as sns# 计算特征之间的相关性
correlation = iris_df.iloc[:, :-1].corr()# 绘制热力图
plt.figure(figsize=(8, 6))
sns.heatmap(correlation, annot=True, cmap='coolwarm', fmt='.2f')
plt.title('Correlation Heatmap of Iris Dataset')
plt.show()

5. 处理缺失值(如果有)

虽然鸢尾花数据集本身没有缺失值,但在实际数据中,缺失值的处理是很常见的。我们可以使用pandas来检查并处理缺失值:

# 检查缺失值
print(iris_df.isnull().sum())# 假设有缺失值的列,使用均值填充
iris_df.fillna(iris_df.mean(), inplace=True)

7. 2D和3D可视化

2D可视化

import matplotlib.pyplot as plt
import numpy as np
from sklearn.datasets import load_iris# Load the Iris dataset
iris = load_iris()
X = iris.data[:, :2]  # Use the first two features (Sepal Length and Sepal Width)
y = iris.target# Create a 2D scatter plot
fig = plt.figure(figsize=(10, 7))
ax = fig.add_subplot(111)# Map species to colors
colors = ['r', 'g', 'b']
species_names = iris.target_names# Plot each species
for i in range(3):ax.scatter(X[y == i, 0], X[y == i, 1], label=species_names[i], color=colors[i], alpha=0.6)ax.set_xlabel('Sepal Length (cm)')
ax.set_ylabel('Sepal Width (cm)')
ax.set_title('2D Scatter Plot of Iris Dataset')
ax.legend()
plt.show()

3D可视化

import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D
import numpy as np# Extract features and target
X = iris.data[:, :3]  # Use the first three features for 3D visualization
y = iris.target# Create a 3D scatter plot
fig = plt.figure(figsize=(10, 7))
ax = fig.add_subplot(111, projection='3d')# Map species to colors
colors = ['r', 'g', 'b']
species_names = iris.target_namesfor i in range(3):ax.scatter(X[y == i, 0], X[y == i, 1], X[y == i, 2], label=species_names[i], color=colors[i], alpha=0.6)ax.set_xlabel('Sepal Length (cm)')
ax.set_ylabel('Sepal Width (cm)')
ax.set_zlabel('Petal Length (cm)')
ax.set_title('3D Scatter Plot of Iris Dataset')
ax.legend()
plt.show()

7. 小结

通过加载、查看和可视化鸢尾花数据集,我们可以更好地理解数据的结构、特征分布以及不同类别样本的区分度。这为后续的数据分析、特征选择以及机器学习建模提供了重要的基础。数据挖掘的第一步是对数据的深刻理解,只有了解了数据,才能采取合适的预处理步骤,最终构建有效的模型。

8. 总结

  • 数据下载与加载: 使用sklearn.datasets.load_iris()加载数据,并通过pandas查看数据。
  • 统计描述: 使用describe()查看数据的基本统计信息。
  • 可视化: 使用seaborn绘制成对关系图、箱线图和热力图,了解数据的分布和特征之间的关系。
  • 缺失值处理: 使用pandas处理缺失值(在实际情况中常见)。

通过这些方法,可以掌握如何处理数据、理解数据以及如何为后续分析做好准备。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/494124.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

useContext Hook 的使用及规范

首先 useContext 是什么? useContext 是 React 提供的一个 Hook,允许函数组件订阅 React 的 Context。 有什么用? 它使得你可以在不使用 Consumer 组件的情况下访问 Context 的值。通过 useContext,你可以轻松地在多层级组件之间…

MacOS 命令行详解使用教程

本章讲述MacOs命令行详解的使用教程,感谢大家观看。 本人博客:如烟花般绚烂却又稍纵即逝的主页 MacOs命令行前言: 在 macOS 上,Terminal(终端) 是一个功能强大的工具,它允许用户通过命令行直接与系统交互。本教程将详细介绍 macOS…

Mac上详细配置java开发环境和软件(更新中)

文章目录 概要JDK的配置JDK下载安装配置JDK环境变量文件 Idea的安装Mysql安装和配置Navicat Premium16.1安装安装Vscode安装和配置Maven配置本地仓库配置阿里云私服Idea集成Maven Cpolar快速入门 概要 这里使用的是M3型片 14.6版本的Mac 用到的资源放在网盘 链接: https://pan…

Neo4j 图数据库安装与操作指南(以mac为例)

目录 一、安装前提条件 1.1 Java环境 1.2 Homebrew(可选) 二、下载并安装Neo4j 2.1 从官方网站下载 2.1.1 访问Neo4j的官方网站 2.1.2 使用Homebrew安装 三、配置Neo4j 3.1 设置环境变量(可选) 3.2 打开配置文件(bash_profile) 3.2.1 打开终端…

【数据结构练习题】链表与LinkedList

顺序表与链表LinkedList 选择题链表面试题1. 删除链表中等于给定值 val 的所有节点。2. 反转一个单链表。3. 给定一个带有头结点 head 的非空单链表,返回链表的中间结点。如果有两个中间结点,则返回第二个中间结点。4. 输入一个链表,输出该链…

图书借阅管理系统|SpringBoot|HTML|web网站|Java【源码+数据库文件+包部署成功+答疑解惑问到会为止】

代码包运行启动成功!不管你有没有运行环境,哪怕你是刚买的新电脑,也包启动运行成功!有不懂的地方随便问!问到会为止! 【功能介绍】 该系统有两种角色: 管理员,读者。 1.管理员可以添…

Qt Quick:CheckBox 复选框

复选框不止选中和未选中2种状态哦,它还有1种部分选中的状态。这3种状态都是Qt自带的,如果想让复选框有部分选中这个状态,需要将三态属性(tristate)设为true。 未选中的状态值为0,部分选中是1,选…

【ue5学习笔记2】在场景放入一个物体的蓝图输入事件无效?

在场景放入一个物体的蓝图输入事件无效,那是因为你不知道gameMode这个东西这是一个用于设定游戏股则的东西, 就好比你的控制对象,你输入无效是没有指定你当前关卡中指定的控制对象是它。操作方法如下: 1.创建一个gameMode蓝图类并…

pro文件转换为CMakeLists.txt文件,QT官方工具使用教程

某些情况需要使用cmake,如果手动将QT的pro文件转换成CMakeLists.txt,简短一点的pro还好,如果是比较复杂的pro,手动转换的时候需要长时间的debug,本人深有感受。 工具介绍: qmake2cmake工具创建一个CMakeL…

Python读取Excel批量写入到PPT生成词卡

一、问题的提出 有网友想把Excel表中的三列数据,分别是:单词、音标和释义分别写入到PPT当中,每一张PPT写一个单词的内容。这种批量操作是python的强项,尤其是在办公领域,它能较好地解放双手,读取Excel表后…

【快速上手】linux环境下Neo4j的安装与使用

一、neo4j简介 neo4j是一个非关系型图形数据库,非常适合处理具有复杂关系的数据集 存储方式:图形化存储 特点:将结构化数据存储在图上而不是表(比如:MySQL数据库存储在表中)中 neo4j也可以看作是一个高…

【看海的算法日记✨优选篇✨】第二回:流动之窗,探索算法的优雅之道

🌈 个人主页:谁在夜里看海. 🔥 个人专栏:《C系列》《Linux系列》《算法系列》 ⛰️ 道阻且长,行则将至 目录 一、算法思想 双指针 滑动窗口 二、具体运用 1.⻓度最⼩的⼦数组 算法思路 算法流程 代码 2.最⼤…

Tool之Excalidraw:Excalidraw(开源的虚拟手绘风格白板)的简介、安装和使用方法、艾米莉应用之详细攻略

Tool之Excalidraw:Excalidraw(开源的虚拟手绘风格白板)的简介、安装和使用方法、艾米莉应用之详细攻略 目录 Excalidraw 简介 1、Excalidraw 的主要特点: Excalidraw 安装和使用方法 1、Excalidraw的安装 T1、使用 npm 安装: T2、使用 …

设计模式之【观察者模式】

观察者模式: 应用于发布-订阅消息模型中,订阅者订阅一个主题后,当有新消息到达时,所有订阅者都会收到通知。 主要关注的是对象之间的通信。是一种对象之间的一对多关系,多个对象依赖于一个对象,当被依赖的…

页面无滚动条,里面div各自有滚动条

一、双滚动条左右布局 实现效果 实现代码 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8" /><meta name"viewport" content"widthdevice-width, initial-scale1.0" /><title>Doc…

(Z Shell)zsh: no matches found: ? 使用单引号包裹

文章目录 dgqdgqdeMac-mini ProductAuthentication % git commit -m "open-type"{{isCodeValid ? getPhoneNumber : none}}"" zsh: no matches found: ?git commit -m open-type"{{isCodeValid ? getPhoneNumber : none}}"你遇到的 zsh: no m…

鸿蒙元服务从0到上架【第二篇】

第一招&#xff1a;在AppGallery后台下载对应的证书等文件 AppGallery后台 新增发布证书&#xff0c;具体操作可查看申请发布证书 申请发布Profile证书 第二招&#xff1a;在IDE中填写 第三招&#xff1a;打包【⚠️发布上架的只能是Build App】 终端展示这一片绿&#xf…

网络安全概论——身份认证

一、身份证明 身份证明可分为以下两大类 身份验证——“你是否是你所声称的你&#xff1f;”身份识别——“我是否知道你是谁&#xff1f;” 身份证明系统设计的三要素&#xff1a; 安全设备的系统强度用户的可接受性系统的成本 实现身份证明的基本途径 所知&#xff1a;个…

【学习记录】浏览器指纹相关学习记录(指纹介绍、获取指纹、修改指纹、随机指纹保护隐私等)

用途 不需要用户登录&#xff0c;可以识别是同一个用户&#xff0c;用于反爬虫广告推送等一类的场景 指纹在线查询地址 http://www.fingerprintbrowser.com/ CreepJS 浏览器指纹在线检测网站:代理IP防关联伪装度查询工具 IP检测大师 【自动化】Python SeleniumUtil 工具 开…

redis数据转移

可能有时候因为硬件的原因我们我们需要更换服务器&#xff0c;如果更换服务器的话&#xff0c;那我们redis的数据该怎样转移呢&#xff0c;按照一下步骤即可完成redis数据的转移 1.进入redis客户端 2.使用 bgsave命令进行数据的备份&#xff0c;此命令完成后会在你的redis安装目…