数据挖掘（2）数据预处理

一、数据预处理

1.1概述

数据预处理的重要性
1. 杂乱性：如命名规则。
2. 重复性：同一客观事再
3. 不完整性：
4. 噪声数据：数据中存在错误或异常的现象。
数据预处理的常见方法
1. 数据清洗：去掉数据中的噪声，纠正不一致。
2. 数据集成：将多个数据源合成一致的数据存储
3. 数据变换（转换）：对数据的格式进行转换，如数据的归一化处理。
4. 数据归约（消减）：通过聚集、删除冗余属性、局类等方法，来实现数据的压缩。

1.2数据清洗

1.空缺值

忽略该元组：
- 其中一条记录中有属性值被遗漏
- 缺少类标号
- 但是，当某一类属性的空缺值占百分比很大，若直接忽略，则会使挖掘性能变得非常差。
  - eg：Y:N=1:1，忽略后会变成Y:N=3:1
  - 人工填写空缺值
  - 使用属性的平均值来填充空缺值
  - 使用与给定元组属同一类的平均值来代替
  - 使用一个全局变量填充空缺值(不推荐)
  - 使用最可能的值填充空缺值
    - 回归、贝叶斯、判定树归纳确定

2.噪声数据的处理

分箱方法(重点)

分箱的步骤：

先排序排序，将其分到等深(等宽)的箱中
按箱的平均值(在出现极端数据的情况下，不能用均值处理)、中值、边界(用左右边界进行替换)进行平滑

等深分箱(分块)

按记录数进行分箱，每箱具有相同的记录数，每箱的记录数称为箱的权重，也称箱子的深度。

等宽分箱

在整个属性值的区间上平均分布，即每个箱的区间范围设定为一一个常量，称为箱子的宽度。

聚类方法

相似、向邻近的数据集合在一起形成各个聚类集合。
特点：直接形成一簇，不需要先验知识。
查找孤立点，消除噪声

线性回归

通过回归方程获得拟合函数

人机结合共同检测

3.不一致数据

人工更正
利用知识工程工具
- 属性之间的函数依赖关系
数据字典

1.3数据集成和变换

数据集成：将来自多个数据源的数据合并到一起
数据变换：对数据进行规范化操作，将其转换成适合于数据挖掘的形式。

1.数据集成

需要统一原始数据中的所有矛盾之处
- 同名异义、异名同义、单位不不统一、字长不一致。
需要注意的问题：
- 模式匹配
  - 整合不同数据源中的元数据。
  - 进行实体识别
  - 借助于数据字典、元数据
- 数据冗余
  - 计算相关分析检测： $r_{a,b}=\frac{\sum(A-\overline{A})(B-\overline{B})}{(n-1)\sigma_A\sigma_B}$
  - 若有高的相关系数，则可以去除掉。
- 数据值冲突
  - 产生原因：表示、比例、编码不同
  - 比如：单位不统一、成绩的百分之和五分值。

2.数据变换(重点)

常用方法：

平滑处理：消除噪声
- 分箱
聚集操作：对数据进行综合
- 函数：avg(),count(),min(),max()…
- 数据规范化：将数据转换到一个较小的范围内，两个数据相差比较大。
- 最小-最大规范化
  - 将原始属性映射到区间[new_min,new_max]
  - 公式： $v'=\frac{v-min_A}{max_A-min_A}(new\_max_A-new\_min_A)+new\_min_A$
- z-score规范化
  - 根据均值、标准差进行计算
  - 常用于：最大值、最小值未知
  - 不保证取值区间一致,但新的取值满足01分布
  - $v'=\frac{v-avg_A}{standard\_dev_A}$
- 小数定标规范化

1.4数据规约

1. 数据规约的标准：

时间：原始数据集挖掘时间：t，数据规约时间：t0，挖掘后时间t’,满足: t_0+t'≤t
性能：归约后得到的数据比原数据小的多，并可以产生相同或差不多的结果。

2. 策略：

数据立方体聚集：
维归约 ( 重点 )
1. 主要检测并删除不相关、弱相关或冗余的属性维
2. .方法：属性子集选择
  1. 目标：寻找出最小的属性子集，并确保新数据子集的概率分布尽可能接近原来的数据集的概率分布。
  2. 启发式算法找出"好的’子集
    1. 逐步向前选择：选择原属性集中最好的属性，并将它添加到该集合中。
    2. 逐步向后删除：由整个属性集开始，每一步都删除现在属性集中最坏的属性。
    3. 向前选择和向后删除结合：每一步选择一个最好的属性，并在剩余属性中删除一个最坏的属性。
    4. 判定树归纳：出现在判定树中的属性形成规约后的属性子集。