数据预处理整体流程图
一般数据预处理流程
- 处理缺失值:填补或删除缺失值。
- 处理异常值:检测并处理异常值。
- 数据编码:将分类变量进行标签编码或独热编码。
- 数据标准化/归一化:对数据进行标准化或归一化处理。
- 连续变量离散化:根据需要将连续变量进行离散化处理。
- 特征选择和降维:使用PCA、T-SNE、UMAP等方法进行降维。
1. 处理缺失值
目标:确保数据的完整性,避免模型因缺失值而产生偏差。
方法:
删除缺失值:直接删除含有缺失值的数据行或列。
填补缺失值 :
- 均值/中位数/众数填补:适用于数值型数据。
- 插值方法:如拉格朗日插值法、牛顿插值法,适用于时间序列等有序数据的插值。
插补预测:使用机器学习模型预测缺失值。
2. 处理异常值
目标:减少异常值对数据分析和模型训练的影响。
- 检测方法:
- 3σ原则:利用数据的均值和标准差检测异常值。
- 箱型图:使用四分位数和内限/外限检测异常值。
- 处理方法:
- 删除异常值:直接移除异常点。
- 替换异常值:用合适的值替换异常点,如用中位数或均值替换。
3. 数据编码
目标:将分类变量转换为模型可以理解的数值形式。
- 方法:
- 标签编码:将分类标签转换为整数值,适用于有序类别数据。
- 独热编码:将每个类别转换为一个二进制向量,适用于无序类别数据。
4. 数据标准化/归一化
目标:将数据缩放到统一尺度,以减少不同特征尺度对模型的影响。
- 标准化:将数据转换为均值为0、标准差为1的标准正态分布。
- 方法:标准差法。
- 归一化:将数据缩放到指定范围(如[0,1])。
- 方法:极值差法、功效系数法等。
5. 连续变量离散化
目标:将连续型变量转换为离散的类别,以适应某些特定的模型或分析需求。
- 方法:
- 等宽法:将数值范围等分为若干个区间。
- 等频法:根据数据的频率分布进行分组。
- 基于聚类的离散化:利用聚类算法将数据划分为若干类。
6. 特征选择和降维
目标:减少数据维度,降低模型复杂度,提高模型训练效率。
- 方法:
- PCA(主成分分析):一种线性降维方法,通过计算特征的主成分减少数据维度。
- T-SNE:一种非线性降维方法,常用于数据可视化。
- UMAP:另一种非线性降维方法,比T-SNE更快,适用于大规模数据的可视化。