概率论和数理统计(三)数理统计基本概念

前言

“概率论”是给定一个随机变量X的分布F(x),然后求某事件A概率 $\in A)$ 或者随机变量X的数字特征.“统计”是已知一组样本数据 ${x_1,x_2,...x_n\}$ ,去求分布F(x)

统计的基本概念

在统计中，总体X的分布要么未知，要么分布形式已知但参数未知，需要抽取部分个体来推断。

总体与样本

在这里插入图片描述

代表性的进一步解释: $X_i$ 与总体 $X$ 同分布。保证总体中每个值都有同样的机会被抽到

关于样本是谁随机变量,还是值?

当代入总体分布函数时是值
当样本分布函数(抽样分布)分析的时候是随机变量

简单随机样本的性质

在这里插入图片描述

统计量

统计量来自总体一个样本，不含任何未知参数，完全由样本来确定，也就是说，根据样本可以求出我们需要的任何一个统计量的值。
在这里插入图片描述

常用统计量

在这里插入图片描述

为什么样本方差的分母是 n-1？
只要采样数小于个体数，采样本身就会引入分布的误差，因此需要进行较正。
采样带来的误差就是原来分布的强化，是可以计算的n/(n-1)的修正并非随便给的

如图 $E[S^2]*n/(n-1)$ 是正常的方差,所以修正过的样本方差 = 末修正过的样本方差*n/(n-1),

抽样分布

样本统计量的分布称为抽样分布.他通常也是随机变量X的分布函数.抽样分布中，最常用的分布其实是4种：z 分布（即正态分布）、卡方分布、t分布、F分布。

卡方分布

在这里插入图片描述

关于标准正态N(0,1):EX=0,DX=1
根据总体标准正态,求得样本卡方分布: EX=n,DX=2n
$\sum_{i=1}^nE(X_i^2) = \sum_{i=1}^nE((X_i-\bar{X}+\bar{X})^2)$
$\sum_{i=1}^nE((X_i-\bar{X})^2+2X_i\bar{X}-\bar{X}^2))$
$\sum_{i=1}^n[D(X_i)+E^2(X_i)]$

参数估计

主要解决总体分布形式已知但参数未知,即总体 $X$ 分布函数 $\theta)$ 形式已知，估计未知参数 $\theta$ 。

点估计

在这里插入图片描述

矩估计法

在这里插入图片描述

极大似然估计

在这里插入图片描述

极大似然估计以“我抽样出来的情况就是最大概率”的情况为前提,求参数 $\theta$ 的最大值.

在这里插入图片描述

估计量的优良性评判

既然是估计量，那与真实值之间就存在误差，因此需要判断估计量是否满足我们的要求，可以通过下面的几个准则来进行评判。
在这里插入图片描述

区间估计

在这里插入图片描述

矩估计法的前提是基于“抽样分布”和“主分布”是一致的情况下. 区间估计法则是表示定置水平一致的情况下,你去构建枢轴变量(带未知数统计量)和抽样分布,最终确定未知量

定置水平的理解: 你要估计全班的身高, 抽样了10得出了身高区间(a,b),然后给出了全部97%的人,身高在(a,b).97%就属于定置水平

在这里插入图片描述

${{\bar{x}-u} \over {\sigma}/\sqrt{n}}$ 是正态分布 $N(u,\sigma^2)$ 转为标准正态 $N (0, 1)$ 的随机变量X的转换关系

统计量参考

在这里插入图片描述

假设检验

假设检验的基本原理：给定一个假设 $H_0$ ，为了检验 $H_0$ 是否正确，首先假定 $H_0$ 是正确的，然后根据抽取到的样本来判断是接收还是拒绝该假设。如果样本中出现了不合理的观测值，应该拒绝 $H_0$ ，否则应该接受假设

观测值:即样本的统计量
“不合理”指的是小概率事件发生，常用 $\alpha$ 来表示这个小概率，也被称为检验的显著性水平 (与点估计中区间估计中的信置水平,差不多的功能).

定义

拒绝域与临界值

在这里插入图片描述

从某种意义上说，设计一个检验，本质上就是找到一个恰当的拒绝域W，使得当 $H_0$ 成立时
$\in W|H_0成立)=\alpha$
即把“小概率事件”视为与拒绝域 $W$ 是等价的

假设检验存在两类错误

在这里插入图片描述

通常只规定 $\alpha$ 的取值，即控制犯第I类错误的概率
使犯第二类错误的概率尽可能小，要使两者犯错的概率都小，就必须增大样本容量。

参数假设检验

在这里插入图片描述

统计量参考

在这里插入图片描述

关于为什么总分布都是以正态分布?

因为中心极限定理。自然界的很多现象都是由无数微小因素的叠加而产生的，而无论这种因素服从何种分布，在大尺度上来观察，其结果都应大致符合正态分布。
网上有一篇文章叫《正态分布的前世今生》，非常推荐学习概率统计的人读一读。

卡方拟合优度检验

前面的假设检验，都是通过抽样来对总体参数进行的假设检验，且集中在正态总体下的参数假设检验。但在实际问题中，可能存在我们对要研究的总体，并不知晓是什么分布。卡方拟合优度检验就是对未知总体的分布提出一个假设，例如：假设该总体服从正态分布、泊松分布、指数分布、二项分布等，根据样本获得的信息，检验假设是否成立。

拟合优度是指：抽样获得的观测频次与原假设分布中理论频次（也叫期望频次）的差异，若观测频次和理论频次越接近，意味着符合程度越好，即拟合优度更好。

在这里插入图片描述
分布拟合优度检验所采用的检验统计量渐近 $\chi^2$ 分布

使用了大样本的性质，所以要求样本容量n足够大
各区间的理论频数 $np_i$ 不能太小

简单的例子

在这里插入图片描述

主要参考

《为什么样本方差（sample variance）的分母是 n-1》
《数理统计学习笔记01：数理统计的基本概念》
《数理统计学习笔记03：参数的点估计》
《第六章数理统计的基本概念》
《第七章参数估计》
《期末复习——概率论与数理统计基本概念总结》
《第八章假设检验》
《数理统计8.5-卡方拟合优度检验》

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/195090.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！