数据挖掘(2)数据预处理

一、数据预处理

1.1概述

  1. 数据预处理的重要性
    1. 杂乱性:如命名规则。
    2. 重复性:同一客观事再
    3. 不完整性:
    4. 噪声数据:数据中存在错误或异常的现象。
  2. 数据预处理的常见方法
    1. 数据清洗:去掉数据中的噪声,纠正不一致。
    2. 数据集成:将多个数据源合成一致的数据存储
    3. 数据变换(转换):对数据的格式进行转换,如数据的归一化处理。
    4. 数据归约(消减):通过聚集、删除冗余属性、局类等方法,来实现数据的压缩。

 1.2数据清洗

1.空缺值

  1. 忽略该元组:
    • 其中一条记录中有属性值被遗漏
    • 缺少类标号
    • 但是,当某一类属性的空缺值占百分比很大,若直接忽略,则会使挖掘性能变得非常差。
      • eg:Y:N=1:1,忽略后会变成Y:N=3:1
      • 人工填写空缺值
      • 使用属性的平均值来填充空缺值
      • 使用与给定元组属同一类的平均值来代替
      • 使用一个全局变量填充空缺值(不推荐)
      • 使用最可能的值填充空缺值
        • 回归、贝叶斯、判定树归纳确定

2.噪声数据的处理

  1. 分箱方法(重点)

分箱的步骤:

  1. 先排 序排序,将其分到等深(等宽)的箱中
  2. 按箱的平 均 值(在出现极端数据的情况下,不能用均值处理)、中 值、边界(用左右边界进行替换)进行平滑

等深分箱(分块)

按记录数进行分箱,每箱具有相同的记录数,每箱的记录数称为箱的权重,也称箱子的深度。

等宽分箱

在整个属性值的区间上平均分布,即每个箱的区间范围设定为一一个常量,称为箱子的宽度。

聚类方法
  1. 相似、向邻近的数据集合在一起形成各个聚类集合。
  2. 特点:直接形成一簇,不需要先验知识。
  3. 查找孤立点,消除噪声
线性回归
  1. 通过回归方程获得拟合函数
人机结合共同检测

3.不一致数据

  1. 人工更正
  2. 利用知识工程工具
    • 属性之间的函数依赖关系
  3. 数据字典

1.3数据集成和变换

  1. 数据集成:将来自多个数据源的数据合并到一起
  2. 数据变换:对数据进行规范化操作,将其转换成适合于数据挖掘的形式。
1.数据集成
  1. 需要统一原始数据中的所有矛盾之处
    • 同名异义、异名同义、单位不不统一、字长不一致。
  2. 需要注意的问题:
    • 模式匹配
      • 整合不同数据源中的元数据。
      • 进行实 体 识 别
      • 借助于数据字典、元数据
    • 数据冗余   
      • 计算相关分析检测: r_{a,b}=\frac{\sum(A-\overline{A})(B-\overline{B})}{(n-1)\sigma_A\sigma_B}
      • 若有高的相关系数,则可以去除掉。
    • 数据值冲突
      • 产生原因:表示、比例、编码不同
      • 比如:单位不统一、成绩的百分之和五分值。
2.数据变换(重点)

常用方法:

  1. 平滑处理:消除噪声
    • 分箱
  2. 聚集操作:对数据进行综合
    • 函数:avg(),count(),min(),max()…
    • 数据规范化:将数据转换到一个较小的范围内,两个数据相差比较大。
    • 最小-最大规范化
      • 将原始属性映射到区间[new_min,new_max]
      • 公式:v'=\frac{v-min_A}{max_A-min_A}(new\_max_A-new\_min_A)+new\_min_A
    • z-score规范化
      • 根据均值、标准差进行计算
      • 常用于:最大值、最小值未知
      • 不保证取值区间一致,但新的取值满足01分布
      • v'=\frac{v-avg_A}{standard\_dev_A}
    • 小数定标规范化

1.4数据规约

1. 数据规约的标准:
  1. 时间:原始数据集挖掘时间:t,数据规约时间:t0,挖掘后时间t’,满足: t_0+t'≤t 
  2. 性能:归约后得到的数据比原数据小的多,并可以产生相同或差不多的结果。
2. 策略:
  1. 数据立方体聚集:
  2. 维 归 约 ( 重 点 ) 
    1.  主要检测并删除不相关、弱相关或冗余的属性维
    2. .方法:属性子集选择
      1.  目标:寻找出最小的属性子集,并确保新数据子集的概率分布尽可能接近原来的数据集的概率分布。
      2. 启发式算法找出"好的’子集
        1.  逐步向前选择:选择原属性集中最好的属性,并将它添加到该集合中。
        2. 逐步向后删除:由整个属性集开始,每一步都删除现在属性集中最坏的属性。
        3. 向前选择和向后删除结合:每一步选择一个最好的属性,并在剩余属性中删除一个最坏的属性。
        4. 判定树归纳:出现在判定树中的属性形成规约后的属性子集。

1.5数据离散化(重点)

1.三种类型的属性值
  1. 标称型(名称、名义):数值来自于无序集合,不需要离散化,如性别、地名、人名。
    • 不可比、不可加
  2. 序数型:来自于有序集合,不需要离散化,如等级
    • 可比、不可加
  3. 连续型:实数值,需要离散化,如温度、体重、考试成绩。
    • 可比、可加
2.离散化技术
  1. 分箱
  2. 基于熵的离散化
  3. 通过自然划分分段
  4. 聚类(不推荐)

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/147304.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

HTML的学习 Day02(列表、表格、表单)

文章目录 一、列表列表主要分为以下三种类型:1. 无序列表(Unordered List):2. 有序列表(Ordered List):将有序列表的数字改为字母或自定义内容li.../li 列表项标签中value属性,制定列…

OpenCV实现视频的追踪(meanshift、Camshift)

目录 1,meanshift 1.1 算法流程 1.2 算法实现 1.3 代码实现 1.4 结果展示 1,meanshift 1.1 算法流程 1.2 算法实现 1.3 代码实现 import numpy as np import cv2 as cv# 读取视频 cap cv.VideoCapture(video.mp4)# 检查视频是否成功打开 if n…

分布式应用程序协调服务 ZooKeeper 详解

目录 1、ZooKeeper简介 2、ZooKeeper的使用场景 3、ZooKeeper设计目的 4、ZooKeeper数据模型 5、ZooKeeper几个重要概念 5.1、ZooKeeper Session 5.2、ZooKeeper Watch 5.3、Consistency Guarantees 6、ZooKeeper的工作原理 6.1、Leader Election 6.2、Leader工作流…

NPDP产品经理知识(产品创新管理)

复习文化,团队与领导力 产品创新管理: 如何树立愿景: 如何实现产品战略 计划 实施产品开发: 商业化,营销计划,推广活动 管理产品生命周期: 新式走向市场的流程:

【Docker】docker拉取镜像错误 missing signature key

问题 当我使用docker拉取一个特定的镜像时,提示错误: 错误 missing signature key 但是拉取其他镜像又可以访问,,,,于是,我怀疑是否是docker版本问题。 docker --version结果确实&#xff0…

操作系统原理-习题汇总

临近毕业,整理一下过去各科习题及资料等,以下为操作系统原理的习题汇总,若需要查找题目,推荐CtrlF或commandF进行全篇快捷查找。 操作系统原理 作业第一次作业选择题简答题 第二次作业选择题简答题 第三次作业选择题简答题 第四次…

ctfshow—1024系列练习

1024 柏拉图 有点像rce远程执行,有四个按钮,分别对应四份php文件,开始搞一下。一开始,先要试探出 文件上传到哪里? 怎么读取上传的文件? 第一步:试探上传文件位置 直接用burp抓包,…

凉鞋的 Godot 笔记 105. 第一个通识:编辑-测试 循环

105. 第一个通识:编辑-测试 循环 在这一篇,我们简单聊聊此教程中所涉及的一个非常重要的概念:循环。 我们在做任何事情都离不开某种循环,比如每天的 24 小时循环,一日三餐循环,清醒-睡觉循环。 在学习一…

通过java向jar写入新文件

文章目录 原始需求分析实施步骤引入依赖核心编码运行效果 原始需求 有网友提问: 我想在程序中动态地向同一个jar包中添加文件,比如,我的可执行jar包是test.jar,我要在它运行时生成一些xml文件并将这些文件添加到test.jar中,请问如何实现&…

C#制做一个 winform下的表情选择窗口

能力有限,别人可能都是通过其他方式实现的,我这里简单粗暴一些,直接通过点击按钮后弹出个新窗体来实现。 1、先在form1上增加一个toolstrip控件,再增加个toolstripbutton按钮,用来点击后弹出新窗体,如图&a…

centos 部署nginx 并配置https

centos版本:centos 7.8 (最好不要用8,8的很多用法和7相差很大) 一.安装nginx 1。下载Nginx安装包:首先,访问Nginx的官方网站(https://nginx.org/)或您选择的镜像站点,找…

阿里云ACP知识点(三)

1、弹性伸缩不仅提供了在业务需求高峰或低谷时自动调节ECS实例数量的能力,而且提供了ECS实例上自动部署应用的能力。弹性伸缩的伸缩配置支持多种特性,例如______,帮助您高效、灵活地自定义ECS实例配置,满足业务需求。 标签、密钥对、 实例RAM…

AWS-Lambda之导入自定义包-pip包

参考文档: https://repost.aws/zh-Hans/knowledge-center/lambda-import-module-error-python https://blog.csdn.net/fxtxz2/article/details/112035627 简单来说,以 " alibabacloud_dyvmsapi20170525 " 包为例 ## 创建临时目录 mkdir /tmp cd ./tmp …

机器学习(监督学习)笔记

笔记内容 代码部分 # 实验2-1 # 批梯度下降 import pandas as pd import numpy as np import random as rd import matplotlib.pyplot as plt # load dataset df pd.read_csv(temperature_dataset.csv) data np.array(df) y0 np.array([i[0] for i in data]) # 第一列作为…

QT、C++实现地图导航系统(mapSystem)

文章目录 地图导航系统项目应用背景技术栈选择数据处理算法实现界面实现源码展示成果展示源码下载 (免费) 地图导航系统 项目应用背景 电子地图导航系统的主要目的是为用户提供精确、实时的导航和位置信息,以帮助他们在城市或地区内轻松找到…

固定式工业RFID读写器有哪些特点?如何选型?

工业读写器可分为便携式读写器和固定式读写器,固定式读写器主要是将读写器固定在某一位置钟,常常应用在工位、生产、进入库等场景中。但是很多人并不了解固定式读写器都有哪些特点,具体应该怎么选型,下面我们就一起来了解一下。 固…

C语言数组和指针笔试题(五)(一定要看)

这里写目录标题 指针运算笔试题解析题目1解析结果 题目2解析结果 题目3解析结果 题目4解析结果 题目5解析结果 题目6解析结果 题目7解析结果 题目8解析结果 感谢各位大佬对我的支持,如果我的文章对你有用,欢迎点击以下链接 🐒🐒🐒个人主页 &a…

Jmeter+jenkins接口性能测试平台实践整理

最近两周在研究jmeter+Jenkin的性能测试平台测试dubbo接口,分别尝试使用maven,ant和Shell进行构建,jmeter相关设置略。 一、Jmeterjenkins+Shell+tomcat 安装Jenkins,JDK,tomcat,并设置环境变量&#xff0…

STM32之DMA

简介 • DMA ( Direct Memory Access )直接存储器存取 (可以直接访问STM32内部存储器,如SRAM、程序存储器Flash和寄存器等) •DMA可以提供外设和存储器或者存储器和存储器之间的高速数据传输,无须CPU干预&a…

在pycharm中出现下载软件包失败的解决方法

一. 一般情况下我们会选择在设置中下载软件包,过程如下. 1. 直接点击左上角的文件, 再点击设置, 再点击项目, 在右边选择python解释器,点击号,输入要下载的软件包, 在下面的一系列的包中选择相对应的包,点击安装就可以了,有的时候我们下载的是最新的版本,如果要下载固定的版本…