概率密度函数（PDF）正态分布

概率密度函数（PDF）是一个描述连续随机变量取特定值的相对可能性的函数。对于正态分布的情况，其PDF有一个特定的形式，这个形式中包括了一个常数乘以一个指数函数，它假设误差项服从均值为0的正态分布：
正太分布(高斯分布)
$p(\epsilon^{(i)}) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(\epsilon^{(i)})^2}{2\sigma^2}\right)$
各名词解释：
$p(\epsilon^{(i)})$ ：这部分表示给定误差 $\epsilon^{(i)}$ 的概率密度。

$\sigma^2$ ：正态分布的形状完全由两个参数决定：均值（ $\mu$ ）和方差（ $\sigma^2$ ）。均值决定了分布的中心位置，而方差（标准差的平方）决定了分布的离散程度。这里均值（ $\mu$ ）都假设为0因此不讨论。详细解释一下 $\sigma^2$ ：

$\sigma^2$ 是分布宽度的度量， $\sigma^2$ 的数值表示数据分布的离散程度： $\sigma^2$ 越大，数据分布越分散； $\sigma^2$ 越小，数据分布越集中(如上图中的钟形越瘦)。
$\sigma^2$ 的计算过程：
a.假设你有一组数据 $X = \{x_1, x_2, ..., x_n\}$ ，且已知均值 $\mu$ 为0。
b.计算每个数据点的平方： $x_i^2$ 计算了每个数据点距离均值（0）的距离的平方。
c.计算这些平方的平均值（即方差 $\sigma^2$ ）： $\sigma^2 = \frac{1}{n} \sum_{i=1}^{n} x_i^2$ （即 $x_i^2$ 求和后平均）

$\frac{1}{\sqrt{2\pi\sigma^2}}$ ：这是正态分布概率密度函数的前缀，其中 $\sigma^2$ 是方差。它的作用是确保概率密度函数（PDF）的积分——也就是函数下整个面积等于1。在数学上，这意味着对于连续概率分布，确保所有概率值的总和为1。

exp： $e$ 是一个重要的数学常数（自然对数的底数），约等于2.71828，而exp是 $e$ 的幂。exp用于计算概率的指数部分，确保了大多数数据点都集中在平均值附近，而远离均值的数据点则呈指数级减少，就是让曲线呈“钟形曲线（高斯分布）”。

$-\frac{(\epsilon^{(i)})^2}{2\sigma^2}$ ：这是exp指数函数内的幂，代表了 $\epsilon^{(i)}$ 偏离均值0的程度。

由于我们假设误差项 $\epsilon$ 均值为0，所以这里直接用 $\epsilon^{(i)}$ 。这个比例的平方表示了误差项的值距离均值（0）的距离的平方，然后除以 ${2\sigma^2}$ 来“标准化”这个距离。在正态分布中，这个距离的平方越大，观测到该误差的概率就越低。
这个过程与误差项 $\epsilon^{(i)}$ 的值(第 $i$ 个数据点的误差项)的平方成正比，这里的平方是必要的，因为我们对误差的大小感兴趣，而不管它是正的还是负的。平方确保了所有的误差值都是非负的，且更大的误差（无论正负）都会产生更大的平方值。
与方差 ${\sigma^2}$ 的两倍成反比，这里 ${\sigma^2}$ 表示整个数据集中的误差项的分布宽度。方差的两倍是概率密度函数的标准组成部分，用于“标准化”误差项的平方，这样不同的分布（具有不同的方差）就可以使用相同的函数形式。这里的乘以 $\frac{1}{2\sigma^2}$ 类似于计算出“相对”值而不是“绝对”值，在不改变误差项的方向的情况下，调整它的相对重要性。主要作用是：由于不同的数据集可能有不同的方差（即不同的误差分布宽度），我们需要有一种方式来标准化这些误差，使它们可以在统一的尺度上比较。
$-\frac{1}{2\sigma^2}$ ：这个负号和分母 ${2\sigma^2}$ 一起工作，形成一个比例因子，表示一个衰减的过程，它反映了误差项 $\epsilon^{(i)}$ 相对于方差的大小。由于是负指数，误差项的平方越大， $e$ 的幂就越小，从而降低了该误差值的概率密度。