-
归一化(Normalization)
- 定义
- 归一化是将数据映射到指定的范围,通常是[0, 1]或[- 1,1]区间。常见的归一化方法有:
- 线性函数归一化(Min - Max Scaling):公式为 x n e w = x − x m i n x m a x − x m i n x_{new}=\frac{x - x_{min}}{x_{max}-x_{min}} xnew=xmax−xminx−xmin,其中 x x x是原始数据, x m i n x_{min} xmin和 x m a x x_{max} xmax分别是数据集中的最小值和最大值。这种方法将原始数据线性地映射到[0, 1]区间。
- 非线性归一化(如对数归一化):例如 y = log ( x + 1 ) y = \log(x + 1) y=log(x+1)(当 x ⩾ 0 x\geqslant0 x⩾0时),这种方法适用于数据在一个方向上有较大的取值范围的情况。
- 归一化是将数据映射到指定的范围,通常是[0, 1]或[- 1,1]区间。常见的归一化方法有:
- 特点
- 归一化受数据的最大值和最小值影响较大。如果数据集中存在异常值,会对归一化的结果产生较大影响。
- 它保留了原始数据的分布形状,只是改变了数据的取值范围。
- 在一些对数据范围有要求的算法中应用广泛,比如在使用SVM(支持向量机)时,数据归一化可以使不同特征在相同的尺度上,有助于提高模型的收敛速度和性能。
- 定义
-
标准化(Standardization)
- 定义
- 标准化是将数据转换为均值为0,标准差为1的分布。其公式为 x n e w = x − μ σ x_{new}=\frac{x - \mu}{\sigma} xnew=σx−μ,其中 x x x是原始数据, μ \mu μ是数据集的均值, σ \sigma σ是数据集的标准差。
- 特点
- 标准化不受数据的量级和数据范围的影响,它基于数据的统计特性(均值和标准差)。因此,数据集中存在少量异常值对标准化的结果影响相对较小。
- 标准化后的数据符合标准正态分布(如果原始数据本身近似正态分布,标准化后更接近标准正态分布),这种特性使得它在很多基于正态分布假设的算法中非常有用,例如在使用基于正态分布假设的机器学习算法(如线性回归等)时,标准化数据有助于算法更好地收敛和工作。
- 定义
-
应用场景区别
- 归一化的应用场景
- 当需要将数据映射到特定区间时,如在图像处理中,将像素值归一化到[0, 1]区间,便于后续的计算和处理。
- 在一些对数据范围敏感的算法中,如神经网络中的某些激活函数(如Sigmoid函数),输入数据归一化到一个合适的范围可以使模型训练更加高效。
- 标准化的应用场景
- 在基于正态分布假设的统计分析和机器学习算法中广泛应用,如线性回归、逻辑回归、主成分分析(PCA)等。标准化可以使这些算法更好地处理数据,避免因为数据尺度不同而导致的模型偏差。
- 当数据集中存在少量异常值,但不希望这些异常值对数据转换产生过大影响时,标准化相对归一化是更好的选择。
- 归一化的应用场景