我谈正态分布——正态偏态

话说现在的翻译真让人受不了，比如那个multi-head attention。head还有body是按身体的部位命名的，那可能是语言习惯，就像描述像素邻域，他们用north, south, southeast这样描述，但是我们用上、下，右下描述，如果中文用北、南、东南这样描述是不是很奇怪，语言习惯不一样。

不会翻译还不如不翻了，那些翻译为头的人到底有脑子吗？很烦那种不说人话的翻译。

言归正传

正态分布（Normal Distribution），也被称为高斯分布（Gaussian Distribution），是一种重要的连续型概率分布。它在自然和社会科学的许多领域中都有广泛的应用。

pdf和cdf

正态分布的概率密度函数可以表示为：
$\frac{1}{\sigma\sqrt{2\pi}} e^{-\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2}$
其中， $x$ 是随机变量， $\mu$ 是均值， $\sigma$ 是标准差。记为 $X\sim N(\mu, \sigma^2)$ 。

正态分布的图形是对称的，其形状像一个钟形曲线，均值（mean）、中位数（median）和众数（mode）都位于分布的中心点。大部分数据集中在平均值附近，随着离平均值距离的增加，数据出现的概率迅速减少。

在这里插入图片描述

正态分布 $N(\mu, \sigma^2)$ 的分布函数为

$\frac{1}{\sqrt{2\pi}\sigma} \int_{-\infty}^{x} e^{-\frac{(t-\mu)^2}{2\sigma^2}} dt$

它是一条光滑上升的 S 形曲线。

在这里插入图片描述

参数

正态分布中的两个参数——均值 $μ$ 和标准差 $σ$ 如何影响正态分布图形的形状和位置。

如果固定 $σ$ ，改变 $μ$ 的值，则曲线沿 x 轴平移，而不改变其形状。也就是说正态密度函数的位置由参数 $μ$ 所确定，因此称 $μ$ 为位置参数。
如果固定 $μ$ ，改变 $σ$ 的值，则分布的位置不变，但 $σ$ 愈小，曲线呈高且窄，数据更加集中于均值周围； $σ$ 愈大，曲线呈低且宽，数据较为分散。也就是说正态密度函数的尺度由参数 $σ$ 所确定，因此称 $σ$ 为尺度参数。

总结，均值 $μ$ 决定分布的位置，而标准差 $σ$ 则决定了分布的宽度和数据的集中程度。

在这里插入图片描述

标准正态分布

设定随机变量 $X$ 服从正态分布 $N(\mu, \sigma^2)$ ，并将其标准化为 $\frac{X - \mu}{\sigma}$ ，使得 $U$ 服从标准正态分布 $N (0, 1)$ 。

对于标准正态分布（均值为0，标准差为1），概率密度函数为：
$\frac{1}{\sqrt{2\pi}} e^{-\frac{z^2}{2}}$
标准正态分布的累积分布函数：
$\Phi(z) = \int_{-\infty}^{z} \frac{1}{\sqrt{2\pi}} e^{-\frac{t^2}{2}} \, dt$

期望和方差

好巧不巧，正态分布的两个参数正好是均值和标准差。正态分布就是那么完美。

假设 $U$ 服从标准正态分布 $N (0, 1)$

均值的计算：
- 计算 $U$ 的期望值 $E (U)$ ：
  $\frac{1}{\sqrt{2\pi}} \int_{-\infty}^{\infty} u e^{-\frac{u^2}{2}} du$
  由于被积函数是一个奇函数，其积分结果为零，即 $E (U) = 0$ 。
- 因此，根据 $\mu + \sigma U$ ，可以得出 $X$ 的期望值 $E (X)$ ：
  $\mu + \sigma \times 0 = \mu$
- 结论：正态分布 $N(\mu, \sigma^2)$ 的均值为 $\mu$ 。
方差的计算：
- 首先计算 $U$ 的方差 $Va r (U)$ 或者说是 $U^2$ 的期望值 $E(U^2)$ ：
  $E(U^2) = \frac{1}{\sqrt{2\pi}} \int_{-\infty}^{\infty} u^2 e^{-\frac{u^2}{2}} du$
  利用分部积分法，最终得到 $E(U^2) = 1$ 。
- 根据 $\mu + \sigma U$ ，可以得出 $X$ 的方差 $Va r (X)$ ：
  $Var(\mu + \sigma U) = \sigma^2 Var(U) = \sigma^2 \times 1 = \sigma^2$
- 结论：正态分布 $N(\mu, \sigma^2)$ 的方差为 $\sigma^2$ 。

注意： $\mu$ 、 $\sigma^2$ ，均值 $\mu$ 和方差 $\sigma^2$ 是正态分布的参数，只是在正态分布中正好等于期望和方差，而 $E (X)$ 和 $Va r (X)$ 是统计量，注意分区概念。有些刊物真是离谱了。
例如，Rafael Gonzalez的《数字图像处理》，此外这个 $a$ 也真多余。
在这里插入图片描述
和这个

分布形态

对于一个连续随机变量 $X$ ，其概率密度函数 $f (x)$ 描述了 $X$ 在某个特定值 $x$ 处的概率密度。需要注意的是， $f (x)$ 不直接表示概率，而是表示概率的密度。

对于任意区间 $[a, b]$ ，随机变量 $X$ 落在这个区间内的概率可以通过计算该区间上的曲线下面积来得到。数学上，这可以通过积分来表示：
$\leq X \leq b) = \int_{a}^{b} f(x) \, dx$
要计算 $X$ 落在某个区间 $[a, b]$ 内的概率，可以使用正态分布的累积分布函数（CDF）：
$\leq X \leq b) = \Phi(b) - \Phi(a)$
其中， $\Phi(x)$ 是正态分布的累积分布函数。

假设要计算标准正态分布中 $Z$ 落在 $[- 1, 1]$ 区间内的概率。

计算 $\Phi(1)$ ：
$\Phi(1) = \int_{-\infty}^{1} \frac{1}{\sqrt{2\pi}} e^{-\frac{t^2}{2}} \, dt \approx 0.8413$
计算 $\Phi(-1)$ ：
$\Phi(-1) = \int_{-\infty}^{-1} \frac{1}{\sqrt{2\pi}} e^{-\frac{t^2}{2}} \, dt \approx 0.1587$
计算概率：
$\leq Z \leq 1) = \Phi(1) - \Phi(-1) = 0.8413 - 0.1587 = 0.6826$

因此，标准正态分布中 $Z$ 落在 $[- 1, 1]$ 区间内的概率约为0.6826，即68.26%。

$3\sigma$ 原则

$1 σ$ 区间：大约68.27%的数据点位于平均值 $μ$ 的一个标准差 $σ$ 的范围内，即在 $(μ - σ, μ + σ)$ 之间。
$P (μ - σ < X < μ + σ) \approx 0.6827$
$2 σ$ 区间：大约95.45%的数据点位于平均值 $μ$ 的两个标准差 $2 σ$ 的范围内，即在 $(μ - 2 σ, μ + 2 σ)$ 之间。
$P (μ - 2 σ < X < μ + 2 σ) \approx 0.9545$
$3 σ$ 区间：大约99.73%的数据点位于平均值 $μ$ 的三个标准差 $3 σ$ 的范围内，即在 $(μ - 3 σ, μ + 3 σ)$ 之间。
$P (μ - 3 σ < X < μ + 3 σ) \approx 0.9973$

正态分布的3σ原则指出，正态分布随机变量取值落在三倍标准差之外的概率非常小，大约是0.27%（即100% - 99.73%）。

落在 $μ \pm 3 σ$ 之外的概率为 $1 - 0.9973 = 0.0027$ 或者说约为0.27%。

在实际应用中，由于这个概率非常小，通常认为这样的事件几乎不会发生。因此，在很多情况下，可以将区间 $(μ - 3 σ, μ + 3 σ)$ 视为正态分布随机变量的实际可能取值区间。这意味着在这个区间之外的值可以被视为异常值或者极端值。

这种处理方式简化了数据分析和决策制定的过程，尤其是在质量控制、过程改进等实际问题中， $3 σ$ 原则提供了一种有效的方法来识别和处理异常数据点。这也就是所谓的正态分布的 $3 σ$ 原则。

normcdf(1)-normcdf(-1)
normcdf(2)-normcdf(-2)
normcdf(3)-normcdf(-3)

在这里插入图片描述

正态和偏态

正态

正态分布的曲线是左右对称的，其形状像一个钟形曲线，均值（mean）、中位数（median）和众数（mode）都位于分布的中心点。

偏态

偏态分布是指数据分布不是对称的，而是偏向一侧。偏态可以是正偏（右偏）或负偏（左偏）。

当分布曲线的尾巴向右延伸时，称为正偏态；在正偏态分布中，大多数数据值集中在左侧，而右侧有较长的拖尾。
当分布曲线的尾巴向左延伸时，称为负偏态。而在负偏态分布中，大多数数据值集中在右侧，左侧有较长的拖尾。

瑞利分布

看瑞利分布，我喜欢这个分布，并不知道什么用，就是喜欢它的流线型。

对于参数为 $\sigma$ 的瑞利分布，其概率密度函数 (PDF) 可以表示为：
$f(x;\sigma) = \frac{x}{\sigma^2} e^{-x^2/(2\sigma^2)}, \quad x \geq 0$

其中， $\sigma > 0$ 是尺度参数。

均值（期望）：
$\sigma \sqrt{\frac{\pi}{2}}$
方差：
$\left( 4 - \pi \right) \frac{\sigma^2}{2}$

瑞利分布的均值和方差如何随着形状参数 $\sigma$ 的变化而变化。具体来说，当 $\sigma$ 增大时，均值和方差都会相应地增加。

偏度 (Skewness)

瑞利分布的偏度是正的，表明分布是右偏的。具体来说，偏度 $\gamma_1$ 可以通过以下公式计算：
$\gamma_1 = \sqrt{\frac{2}{\pi}} \left( \frac{4 - \pi}{2} \right)^{-3/2} \approx 0.6311$

峰度 (Kurtosis)

峰度描述了分布的尖峭程度，对于瑞利分布，其峰度 $\beta_2$ 可以表示为：
$\beta_2 = \left( \frac{4 - \pi}{2} \right)^{-2} \cdot \left( 3 - \frac{6\pi}{4 - \pi} + \frac{\pi^2}{2} \right) \approx 3.245$