SPSS26统计分析笔记—

1 假设检验原理

假设检验的基本原理源于“小概率事件”原理，是一种基于概率性质的反证法。其核心思想是小概率事件在一次试验中几乎不会发生。检验的过程首先假设原假设 ${H_0}$ 成立，然后通过统计方法分析样本数据。如果样本数据引发了“小概率事件”，则拒绝 ${H_0}$ ；否则，接受 ${H_0}$ 。
在假设检验中，小概率事件并不是绝对矛盾，而是根据实践中的普遍经验，即小概率事件几乎不会发生。但具体多小的概率才算“小概率事件”则视问题而定。通常，将概率记为 $\alpha \left( {0 < \alpha < 1} \right)$ ，即显著性水平。显著性水平的选择通常为0.1、0.05或0.01，当事件发生的概率低于这些阈值时，即被视为“小概率事件”，进而拒绝原假设 ${H_0}$ 。

2 单样本T检验

        在SPSS中，虽然菜单中使用大写T表示T检验，但其结果报告中采用小写t。除了单样本T检验外，常见的还有独立样本t检验和配对样本t检验。单样本T检验用于研究样本均值与总体均值之间的差异，其目的是推断样本的总体均值是否与某一特定值存在显著差异，简而言之，即判断某个样本是否属于某一特定总体。之所以称为“单样本T检验”，是因为该方法仅涉及一个样本的数据，并基于t分布进行假设检验。
        单样本T检验的备择假设包括显著不等于 $({H_1}:{\mu _1} \ne {\mu _0})$ 、显著小于 $({H_1}:{\mu _1} < {\mu _0})$ 和显著大于 $({H_1}:{\mu _1} > {\mu _0})$ ，其中 ${\mu _1}$ 代表样本对应的总体均值， ${\mu _0}$ 为已知总体均值。SPSS默认进行双侧检验，即检验 ${H_0}:{\mu _1} = {\mu _0}$ 。对于单侧检验（显著大于或显著小于），需要通过双侧检验结果结合实际情况进行人为判断。
        单样本T检验的使用需要满足下列几个条件：
        ①数据来源于单个样本；
        ②样本应来自于近似正态分布的总体；
        ③ 数据为连续型变量。
        单样本T检验的步骤：
        步骤1：建立原假设 ${H_0}$
        原假设可分为三种：
        ①显著不等于 $({H_1}:{\mu _1} \ne {\mu _0})$
        ②显著小于 $({H_1}:{\mu _1} < {\mu _0})$
        ③显著大于 $({H_1}:{\mu _1} > {\mu _0})$
        步骤2：确定检验统计量
        当总体分布为正态分布时，即 $N(\mu ,{\sigma ^2})$ ，样本均值的分布仍可视为正态分布，此时其正态分布的均值为 ${\mu }$ ，方差为 $\frac{{{\sigma ^2}}}{n}$ ，即：
$\bar X \sim N{\text{(}}\mu ,\frac{{{\sigma ^2}}}{n}{\text{)}}$
         $\bar x$ 为样本均值;
         ${\mu }$ 为总体均值;
         ${\sigma ^2}$ 为总体方差;
        n为样本量。
        根据中心极限定理，若总体分布近似服从正态分布，当样本量n较大时，样本均值也近似服从正态分布。
        （1）当总体方差 ${\sigma ^2}$ 已知时，可用Z检验证明样本均值与总体均值是否有显著差异，其统计量为：
$\frac{{\bar x - {\mu _0}}}{{\sqrt {\frac{{{\sigma ^2}}}{n}} }}$
        （2）如果总体方差 ${\sigma ^2}$ 是未知的，可以用样本方差 ${S^2}$ 来代替总体方差 ${\sigma ^2}$ ，利用t检验证明样本均值与总体均值是否有显著差异，其统计量为：
$\frac{{\bar x - {\mu _0}}}{{\sqrt {\frac{{{S^2}}}{n}} }}$
        （3）如果总体分布非正态，只要样本量 $\geqslant 30$ ，不管总体的方差已知或是未知，都可以用近似正态分布Z’检验证明样本均值与总体均值是否有显著差异，即：
$\frac{{\bar X - {\mu _0}}}{{\sqrt {\frac{{{S^2}}}{n}} }}Z' = \frac{{\bar X - {\mu _0}}}{{\sqrt {\frac{{{S^2}}}{n}} }}$
        步骤3：计算检验统计量及发生的概率p值。
         SPSS软件会自动计算t检验统计量，并基于该统计量的分布计算p值。我们只需进行识别和判断。
        步骤4：设定显著性水平α并与概率值p进行比较，做出统计决策。
        如果p值大于显著性水平，则接受原假设，结论为“当p > α时，接受原假设 ${H_0}$ ，拒绝备择假设 ${H_1}$ ”。
        如果p值小于显著性水平，则拒绝原假设，结论为“当p < α时，拒绝原假设 ${H_0}$ ，接受备择假设 ${H_1}$ ”
在这里插入图片描述

3 独立样本T检验

        独立样本T检验的主要目的是比较两个总体均值的差异。与单样本T检验不同，独立样本T检验利用来自两个独立总体的样本数据，以推断这两个总体均值之间是否存在显著差异。这两个样本是相互独立的，分别来自不同的总体，其样本数量可以相同或不同。与单样本T检验相似，备择假设的形式可以为显著不等于 $({H_1}:{\mu _1} \ne {\mu _2})$ 、显著小于 $({H_1}:{\mu _1} < {\mu _2})$ 和显著大于 $({H_1}:{\mu _1} > {\mu _2})$ ，SPSS软件仅进行双侧检验。如果需要进行单侧检验，则需要基于双侧检验的结果进行人为判断。
        两独立样本T检验的适用条件有下面几个：
        ①样本来自的总体应服从或近似服从正态分布；
        ②两样本应为相互独立的样本；
        ③样本数据为连续性变量。
        操作：分析>比较平均值>独立样本T检验
        独立样本T检验的步骤：
        步骤1：建立原假设
        原假设 ${H_0}$ 可分为三种：
        ①显著不等于 $({H_1}:{\mu _1} \ne {\mu _0})$
        ②显著小于 $({H_1}:{\mu _1} < {\mu _0})$
        ③显著大于 $({H_1}:{\mu _1} > {\mu _0})$
         ${\mu _1}$ 和 ${\mu _2}$ 分别是第一个和第二个总体的均值；
        步骤2：确定检验统计量
        （1）两个总体都是正态分布、两个总体方差 ${\sigma _1}^2$ 和 ${\sigma _2}^2$ 都已知的时候，两独立样本均值差的抽样分布的方差估计为 ${\sigma _{12}}^2$ ，可以表示为：
$\sigma _{12}^2 = \frac{{{\sigma _1}^2}}{{{n_1}}} + \frac{{{\sigma _2}^2}}{{{n_2}}}$
         ${\sigma _1}^2$ 、 ${\sigma _2}^2$ 分别为第一个和第二个总体的方差；
         ${n_1}$ 、 ${n_2}$ 分别为第一个和第二个样本的样本量；
        因为此时两样本均值差的抽样分布为正态分布，可以利用Z检验证明两总体的均值是否有显著性差异，其统计量为： $\frac{{(\overline {{X_1}} - \overline {{X_2}} ) - ({\mu _1} - {\mu _2})}}{{\sqrt {\frac{{{\sigma _1}^2}}{{{n_1}}} + \frac{{{\sigma _2}^2}}{{{n_2}}}} }}$
        （2）如果两个总体方差未知但相等，即 ${\sigma _1}^2$ = ${\sigma _2}^2$ ，可以用联合方差 ${S_p}^2$ 代替两个总体的方差，其公式为：
${S_p}^2 = \frac{{({n_1} - 1){S_1}^2 - ({n_2} - 1){S_2}^2}}{{{n_1} - {n_2} - 1}}$
         ${S_1}^2$ 和 ${S_2}^2$ 分别为第一个和第二个样本的方差；
         ${n_2}$ 分别为第一个和第二个样本的样本量；
        此时两样本均值差的抽样分布的方差估计为 ${\sigma _{12}}^2$ ，可以表示为： ${\sigma _{12}}^2 = \frac{{{S_p}^2}}{{{n_1}}} + \frac{{{S_p}^2}}{{{n_2}}}$
        因为此时两样本均值差的抽样分布为 $t$ 分布，那么此时两独立样本T检验构建的统计量可以写成： $\frac{{(\overline {{X_1}} - \overline {{X_2}} ) - ({\mu _1} - {\mu _2})}}{{\sqrt {\frac{{{S_p}^2}}{{{n_1}}} + \frac{{{S_p}^2}}{{{n_2}}}} }}$
        （3）如果两个总体方差未知且不相等，即 ${\sigma _1}^2 \ne {\sigma _2}^2$ ，分别用样本方差代替各自的总体方差，那两样本均值差的抽样分布的方差估计为： ${\sigma _{12}}^2$ ，可以表示为：
${\sigma _{12}}^2 = \frac{{{S_1}^2}}{{{n_1}}} + \frac{{{S_2}^2}}{{{n_2}}}$
        但是这时两样本均值差的抽样分布已经不是正态分布，也不是 $t$ 分布，只是一个近似 $t$ 分布，此时用 $t^{'}$ 检验证明两总体均值是否存在显著性差异，其统计量为：
$\frac{{(\overline {{X_1}} - \overline {{X_2}} ) - ({\mu _1} - {\mu _2})}}{{\sqrt {\frac{{{S_1}^2}}{{{n_1}}} + \frac{{{S_2}^2}}{{{n_2}}}} }}$
        这个 $t^{'}$ 分布的自由度与 $t$ 分布不同，要经过修正，修正后的自由度为： $\frac{{{{(\frac{{{S_1}^2}}{{{n_1}}} + \frac{{{S_2}^2}}{{{n_2}}})}^2}}}{{{{(\frac{{{S_1}^2}}{{{n_1}}})}^2}/{n_1} + (\frac{{{S_2}^2}}{{{n_2}}})/{n_2}}}$
        综上所述，由于不同方差的情况需要选择不同的T检验方式，因此在进行独立样本T检验前，首先需要确认两个样本的方差是否相等。这可以通过SPSS中的F检验来判断两总体方差是否存在显著差异，软件会提供相应的T检验结果，涵盖方差相等和不相等的情况。
        步骤3：计算检验统计量观测值及发生的概率 $p$ 值
         SPSS会自动计算T检验的统计量，并根据 $t$ 统计量的分布计算相应的 $p$ 值。与单样本T检验不同，独立样本T检验将提供两个不同的 $t$ 统计量供选择，我们需根据前一步的结果选择适合的统计量。
        步骤4：设定显著性水平 $\alpha$ 与概率值 $p$ 进行比较，做出统计决策
        两独立样本T检验的决策比单样本T检验多一个步骤，分两步进行：
        （1）判断两独立样本的方差是否相等。通过F检验检验方差的原假设为 ${H_0}:{\sigma _1}^2 = {\sigma _2}^2$ 。若F检验的 $p$ 值大于 $\alpha$ ，则接受原假设，认为两总体方差相等；若 $p$ 值小于 $\alpha$ ，则拒绝原假设，认为方差不相等。
        （2）判断两个独立样本总体均值的差异。第一步确认的方差情况为选择合适的T检验提供了依据。第二步通过T检验判断两总体均值是否存在显著差异，原假设为 ${H_0}:{\mu _1} = {\mu _2}$ 。当 $p$ 值大于 $\alpha$ 时，接受原假设，表明两总体均值无显著差异；当 $p$ 值小于 $\alpha$ 时，拒绝原假设，表明两总体均值存在显著差异。
在这里插入图片描述

4 成对样本T检验

        成对样本T检验，又称为配对样本T检验，通常适用于同一群体在不同时间点（例如前测和后测）进行两次测量。其主要目的是检验两个相关样本的均值是否存在显著差异。这一检验不同于单样本T检验和独立样本T检验，后者分别关注单个样本与总体均值的差异以及两个独立样本的均值差异。
        在成对样本T检验中，备择假设的表述方式包括显著不等于 $({H_1}:{\mu _1} \ne {\mu _2})$ 、显著小于 $({H_1}:{\mu _1} < {\mu _2})$ 和显著大于 $({H_1}:{\mu _1} > {\mu _2})$ 。在SPSS中，通常只进行显著不等于的双侧检验；如需单侧检验，则需基于双侧检验结果进行判断。
        成对样本T检验的适用条件有下面几个：
        ①两组样本应有一定的关联，且样本容量应相等，观察值需一一对应，顺序不可随意改变；
        ②样本所属的总体服从或近似服从正态分布；
        ③样本数据属于连续性数据。
        操作：分析>比较平均值>成对样本T检验
        步骤1：建立原假设
        原假设 ${H_0}$ 可分为三种：
        ① ${H_0}:{\mu _d} = 0$ （均值差异为零）
        ② ${H_0}:{\mu _d} < 0$ （均值差异小于零）
        ③ ${H_0}:{\mu _d} > 0$ （均值差异大于零）
        步骤2：确定检验统计量
        两样本为相关样本时，其样本均值差的方差可以表示为：
${\sigma _{12}}^2 = \frac{{{\sigma _1}^2}}{{{n_1}}} + \frac{{{\sigma _2}^2}}{{{n_2}}} - 2r\frac{{{\sigma _1}}}{n}\frac{{{\sigma _2}}}{n}$
         ${\sigma _1}^2$ 和 ${\sigma _2}^2$ 分别为第一个和第二个总体的方差；
         ${n_1}$ 和 ${n_2}$ 分别为第一个和第二个样本的样本量；
         $r$ 为两样本的相关系数。
        （1）当总体方差已知时，两相关样本均值差的分布为正态分布，检验两样本总体均值差异与否的检验统计量可以表示为： $\frac{{(\overline {{X_1}} - \overline {{X_2}} ) - ({\mu _1} - {\mu _2})}}{{\sqrt {\frac{{{\sigma _1}^2}}{{{n_1}}} + \frac{{{\sigma _2}^2}}{{{n_2}}} - 2r\frac{{{\sigma _1}}}{n}\frac{{{\sigma _2}}}{n}} }}$
        （2）当总体方差未知时，可以用样本的方差代替总体方差，这时检验两样本总体均值差异与否的检验统计量可以表示为： $\frac{{(\overline {{X_1}} - \overline {{X_2}} ) - ({\mu _1} - {\mu _2})}}{{\sqrt {\frac{{{S_1}^2}}{{{n_1}}} + \frac{{{S_2}^2}}{{{n_2}}} - 2r\frac{{{S_1}}}{n}\frac{{{S_2}}}{n}} }}$
         ${S_1}^2$ 和 ${S_2}^2$ 分别为第一个和第二个总体的方差；
         ${n_1}$ 和 ${n_2}$ 分别为第一个和第二个样本的样本量；
         $r$ 为两样本的相关系数。
        （3）只要样本足够大,都可以用近似正态 $Z^{'}$ 检验，即：
$\frac{{(\overline {{X_1}} - \overline {{X_2}} ) - ({\mu _1} - {\mu _2})}}{{\sqrt {\frac{{{\sigma _1}^2}}{{{n_1}}} + \frac{{{\sigma _2}^2}}{{{n_2}}} - 2r\frac{{{\sigma _1}}}{n}\frac{{{\sigma _2}}}{n}} }}$
$\frac{{(\overline {{X_1}} - \overline {{X_2}} ) - ({\mu _1} - {\mu _2})}}{{\sqrt {\frac{{{S_1}^2}}{{{n_1}}} + \frac{{{S_2}^2}}{{{n_2}}} - 2r\frac{{{S_1}}}{n}\frac{{{S_2}}}{n}} }}$
        步骤3：计算检验统计量观测值及发生的概率 $p$ 值
        与单样本T检验和独立样本T检验相似，SPSS会自动计算成对样本T检验的 $t$ 检验统计量，并根据其分布计算相应的概率 $p$ 值。用户需要根据输出结果进行识别和判断。
        步骤4：设定显著性 $\alpha$ 水平与概率 $p$ 值进行比较，做出统计决策
         当 $p$ 值大于显著性水平时，应接受原假设，结论为“当 $\alpha$ 时，接受原假设 ${H_0}$ ，拒绝备择假设 ${H_1}$ ”；当 $p$ 值小于显著性水平时，则应拒绝原假设，结论为“当 $\alpha$ 时，拒绝原假设 ${H_0}$ ，接受备择假设 ${H_1}$ ”。
在这里插入图片描述