样本是怎么估计总体的

样本是怎么估计总体的

flyfish

1. 什么是样本估计总体?

样本估计总体是指通过样本数据(例如100人的身高)推断总体参数(例如全国人口的平均身高)。核心方法包括:

  • 点估计:用样本统计量直接估计总体参数(如用样本均值估计总体均值)。
  • 区间估计:构造置信区间(如“总体均值在95%置信度下是160cm±5cm”)。

2. 为什么需要样本估计总体?

  • 成本限制:全面普查成本过高(例如全国人口体检)。
  • 破坏性检测:某些检测会破坏样本(如灯泡寿命测试)。
  • 时效性:快速决策需要抽样(如疫情传播率分析)。

3. 什么是频率学派?

频率学派(Frequentist)是统计学中的主流学派之一,核心观点是:概率是事件在长期重复试验中发生的频率。例如,抛硬币正面概率0.5,意味着在无限次抛掷中有一半出现正面。频率学派认为总体参数(如均值、方差)是固定但未知的,只能通过样本数据去估计。

4. 频率学派的基本思路

频率学派的核心逻辑:

1. 参数固定(Fixed Parameter)

核心逻辑:频率学派认为总体参数(如均值μ、方差σ²)是客观存在的固定数值,不随观测者的主观认知或数据变化而改变。
为什么强调固定?

  • 参数是描述总体本质的常数(例如“地球重力加速度的真实值”),不因实验者的不同或实验次数而变化。
  • 例如:硬币正面概率θ=0.5是客观存在的,即使你抛10次全是反面,θ仍然是0.5,只是数据呈现了随机性。

与贝叶斯的对比
贝叶斯学派认为参数是随机变量(例如θ可能服从某个概率分布),而频率学派认为这种主观赋予的分布没有客观依据。


2. 数据随机(Random Data)

核心逻辑:样本数据是随机过程的产物,不同抽样可能得到不同结果,但参数是固定的。
具体表现

  • 例如:用样本均值(\bar{X})估计总体均值μ时,(\bar{X})会因抽样不同而波动(如第一次抽样得(\bar{X}=5.2),第二次得(\bar{X}=5.5)),但μ始终是固定值。
  • 频率学派关注的是估计量的性质(如无偏性、方差),而非单个估计值的准确性。

经典例子
抛硬币10次出现7次正面,频率学派不会说“硬币正面概率是0.7”,而是认为θ固定,数据结果(7/10)是随机性的体现。


3. 频率解释(Frequency Interpretation)

核心逻辑:概率被定义为长期重复试验中事件发生的频率,而非主观信念。
核心工具

  • 置信区间:例如“95%置信区间”,解释为“在无限次重复抽样中,95%的区间会覆盖真实参数”。
  • 假设检验:P值的含义是“在假设成立时,观测到极端结果的概率”,而非“假设为真的概率”。

案例说明

  • 若说“μ的95%置信区间是[4.8,5.6]”,频率学派的解释是:如果重复抽样100次,大约95次构造的区间会包含真实μ,而不是“μ有95%概率落在这个区间”(后者是贝叶斯观点)。

4. 拒绝主观性(Anti-Subjectivity)

核心逻辑:完全依赖样本数据,拒绝引入先验分布(Prior Distribution)。
原因

  • 频率学派认为先验分布是主观假设(如“专家经验”),缺乏客观依据,可能导致结论偏离真实参数。
  • 例如:若贝叶斯学派假设θ服从Beta(2,2)分布,频率学派会认为这人为引入了主观信息,而数据本身应独立分析。

例外情况
在频率学派框架下,若先验信息能被转化为数据(如历史数据),则可纳入模型,但需严格区分“主观先验”和“客观数据”。


5. 频率学派的估计方法

点估计方法
方法核心思想例子
矩估计法用样本矩匹配总体矩,解方程求解参数。用样本均值估计正态分布的总体均值。
最大似然估计最大化样本出现的概率(似然函数)。二项分布参数 p p p 的估计: p ^ = k n \hat{p} = \frac{k}{n} p^=nk
最小二乘法最小化误差平方和,用于回归分析。线性回归系数估计。
区间估计方法
方法公式适用场景
正态分布置信区间 X ˉ ± z α / 2 ⋅ σ n \bar{X} \pm z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}} Xˉ±zα/2n σ大样本或总体方差已知的均值估计。
t分布置信区间 X ˉ ± t α / 2 ( n − 1 ) ⋅ S n \bar{X} \pm t_{\alpha/2}(n-1) \cdot \frac{S}{\sqrt{n}} Xˉ±tα/2(n1)n S小样本且总体方差未知的均值估计。
卡方分布置信区间 [ ( n − 1 ) S 2 χ α / 2 2 ( n − 1 ) , ( n − 1 ) S 2 χ 1 − α / 2 2 ( n − 1 ) ] \left[ \frac{(n-1)S^2}{\chi^2_{\alpha/2}(n-1)}, \frac{(n-1)S^2}{\chi^2_{1-\alpha/2}(n-1)} \right] [χα/22(n1)(n1)S2,χ1α/22(n1)(n1)S2]总体方差或标准差估计。
比例置信区间 p ^ ± z α / 2 ⋅ p ^ ( 1 − p ^ ) n \hat{p} \pm z_{\alpha/2} \cdot \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} p^±zα/2np^(1p^) 二项分布成功概率估计。

6. 具体例子:估计灯泡寿命的总体均值

问题:某工厂生产灯泡,随机抽取10个测试寿命(小时): 1200 , 1220 , 1190 , 1230 , 1210 , 1180 , 1225 , 1205 , 1215 , 1195 1200, 1220, 1190, 1230, 1210, 1180, 1225, 1205, 1215, 1195 1200,1220,1190,1230,1210,1180,1225,1205,1215,1195。估计总体平均寿命。

频率学派解决步骤

  1. 点估计(样本均值):
    x ˉ = 1200 + 1220 + ⋯ + 1195 10 = 1210 小时 \bar{x} = \frac{1200 + 1220 + \dots + 1195}{10} = 1210 \text{小时} xˉ=101200+1220++1195=1210小时
  2. 计算标准差(样本标准差):
    s = ( 1200 − 1210 ) 2 + ( 1220 − 1210 ) 2 + ⋯ + ( 1195 − 1210 ) 2 9 ≈ 15.8 小时 s = \sqrt{\frac{(1200-1210)^2 + (1220-1210)^2 + \dots + (1195-1210)^2}{9}} \approx 15.8 \text{小时} s=9(12001210)2+(12201210)2++(11951210)2 15.8小时
  3. 构造95%置信区间(t分布,自由度=9,$t_{0.025}(9) \approx 2.262)):
    置信区间 = 1210 ± 2.262 ⋅ 15.8 10 ≈ 1210 ± 11.3 ⇒ [ 1198.7 , 1221.3 ] 小时 \text{置信区间} = 1210 \pm 2.262 \cdot \frac{15.8}{\sqrt{10}} \approx 1210 \pm 11.3 \Rightarrow [1198.7, 1221.3] \text{小时} 置信区间=1210±2.26210 15.81210±11.3[1198.7,1221.3]小时
    结论:总体均值在1198.7至1221.3小时之间(置信度95%)。

在频率学派中,置信度95%的含义需要从重复抽样的角度理解:

核心解释
  • 定义:若用同样的方法(如样本均值±t值×标准误)重复构造无数个置信区间,则95%的区间会包含真实的总体均值
  • 关键点
    1. 参数固定:总体均值是固定值(例如灯泡真实寿命可能是1215小时),但未知。
    2. 区间随机:每次抽样计算的置信区间会变化(例如第一次抽样得到[1198.7,1221.3],第二次可能[1205,1225])。
    3. 频率意义:在长期重复中,95%的区间覆盖真实值,但不能说当前区间有95%概率包含真实值(因为真实值要么在区间内,要么不在)。
举例类比
  • 假设真实均值是1215小时:
    • 抽样100次,构造100个95%置信区间。
    • 约95个区间会包含1215小时,5个不包含。
    • 但具体到用户计算的区间[1198.7,1221.3],无法确定它是否属于包含真实值的95%。
与贝叶斯学派的区别
  • 贝叶斯学派会用可信区间(如“真实值有95%概率在[1199,1221]”),但频率学派拒绝这种表述,认为参数不是随机变量。
用户案例中的计算
  • 用户通过10个样本计算了均值1210和标准差15.8。
  • 用t分布(自由度=9)构造的区间[1198.7,1221.3],反映的是方法的可靠性,而非当前区间的概率意义。
常见误解
  • ❌ 错误理解:“真实均值有95%概率落在[1198.7,1221.3]”。
  • ✅ 正确理解:“若长期重复抽样,95%的类似区间会覆盖真实均值”。

7. 贝叶斯学派核心概念

贝叶斯学派认为概率是主观的 “信念程度”,而非频率学派主张的客观频率。参数(如总体均值)被视为随机变量,具有概率分布(先验分布),通过数据更新为后验分布。

1). 先验概率(Prior Probability)
  • 定义:未观测数据前,基于经验或假设对参数的初始概率估计。
  • 例子:猜测硬币正面概率 p p p 更可能在0.4至0.6之间。
2). 先验分布(Prior Distribution)
  • 定义:参数的先验信念的概率分布形式。
  • 例子:假设 p ∼ Beta ( 2 , 2 ) p \sim \text{Beta}(2,2) pBeta(2,2),表示 p p p 接近0.5的概率更高。
  • 数学形式
    Beta ( p ∣ α , β ) = p α − 1 ( 1 − p ) β − 1 B ( α , β ) \text{Beta}(p | \alpha, \beta) = \frac{p^{\alpha-1}(1-p)^{\beta-1}}{B(\alpha, \beta)} Beta(pα,β)=B(α,β)pα1(1p)β1
3). 似然函数(Likelihood Function)
  • 定义:给定参数时,观测到当前数据的概率。
  • 例子:抛10次硬币出现7次正面,似然函数为 L ( p ) = ( 10 7 ) p 7 ( 1 − p ) 3 L(p) = \binom{10}{7} p^7 (1-p)^3 L(p)=(710)p7(1p)3
什么是似然函数?

定义
似然函数(Likelihood Function)是统计学中用于衡量在给定参数值下,观察到当前数据的概率。

  • 数学形式为:
    L ( θ ∣ x ) = P ( x ∣ θ ) L(\theta \mid x) = P(x \mid \theta) L(θx)=P(xθ)
    其中, θ \theta θ 是参数, x x x 是观测数据。
  • 核心思想:固定数据(已知),通过调整参数 θ \theta θ 来评估不同参数值的“合理性”。

关键点

  • 似然函数不是概率分布(不满足积分为1),而是参数的函数。
  • 它与概率的区别:
    • 概率:固定参数 θ \theta θ,计算不同数据的可能性。
    • 似然:固定数据 x x x,评估不同参数值的合理性。

例子:抛硬币10次出现7次正面,参数是硬币正面概率 p p p,则似然函数为:
L ( p ) = ( 10 7 ) p 7 ( 1 − p ) 3 L(p) = \binom{10}{7} p^7 (1-p)^3 L(p)=(710)p7(1p)3


为什么需要似然函数?

目的

  • 参数估计:通过最大化似然函数找到最合理的参数值(即最大似然估计,MLE)。
  • 贝叶斯推断:在贝叶斯框架下,似然函数结合先验分布,计算后验分布(核心公式):
    P ( θ ∣ x ) ∝ L ( θ ∣ x ) ⋅ P ( θ ) P(\theta \mid x) \propto L(\theta \mid x) \cdot P(\theta) P(θx)L(θx)P(θ)

贝叶斯学派:将似然函数作为连接数据与先验知识的桥梁,更新对参数的认知。

似然函数是统计学中人为定义的数学工具,但其基础是概率模型。

  • 人为性
    • 它是基于研究者对数据生成过程的假设(例如,假设数据服从二项分布、正态分布)。
    • 形式由具体的概率模型决定(如抛硬币用二项分布,测量误差用正态分布)。
  • 自然性
    • 其核心思想(“参数如何解释数据”)反映了科学推理的逻辑:通过观察结果反推原因。

举例

  • 若假设硬币抛掷服从二项分布,则似然函数为 L ( p ) ∝ p k ( 1 − p ) n − k L(p) \propto p^k (1-p)^{n-k} L(p)pk(1p)nk
  • 若假设数据服从正态分布,则似然函数为 L ( μ , σ 2 ) ∝ ∏ e − ( x i − μ ) 2 2 σ 2 L(\mu, \sigma^2) \propto \prod e^{-\frac{(x_i-\mu)^2}{2\sigma^2}} L(μ,σ2)e2σ2(xiμ)2
    通过似然函数,我们能够从数据中“反推”出最可能的参数值,或结合先验知识更新对参数的认知(贝叶斯学派的核心思想)。
4). 后验概率(Posterior Probability)
  • 定义:结合先验与数据后,参数的概率分布。
  • 计算方法
    后验分布 ∝ 先验分布 × 似然函数 \text{后验分布} \propto \text{先验分布} \times \text{似然函数} 后验分布先验分布×似然函数
5). 后验分布(Posterior Distribution)
  • 定义:参数在数据后的更新分布。
  • 例子:先验 Beta ( 2 , 2 ) \text{Beta}(2,2) Beta(2,2) + 数据7次正面 → 后验 Beta ( 9 , 5 ) \text{Beta}(9,5) Beta(9,5)
  • 结果:后验均值 9 9 + 5 ≈ 0.64 \frac{9}{9+5} \approx 0.64 9+590.64,表明数据支持“硬币更可能正面”。

8. 贝叶斯推断流程

  1. 设定先验 p ∼ Beta ( 2 , 2 ) p \sim \text{Beta}(2,2) pBeta(2,2)
  2. 收集数据:抛10次硬币,7次正面。
  3. 计算似然 L ( p ) = p 7 ( 1 − p ) 3 L(p) = p^7 (1-p)^3 L(p)=p7(1p)3
  4. 计算后验
    后验 ∝ p 2 − 1 ( 1 − p ) 2 − 1 × p 7 ( 1 − p ) 3 = p 9 − 1 ( 1 − p ) 5 − 1 ⇒ Beta ( 9 , 5 ) \text{后验} \propto p^{2-1}(1-p)^{2-1} \times p^7(1-p)^3 = p^{9-1}(1-p)^{5-1} \Rightarrow \text{Beta}(9,5) 后验p21(1p)21×p7(1p)3=p91(1p)51Beta(9,5)
  5. 推断:计算可信区间或预测下一次结果。

9. 频率学派 vs. 贝叶斯学派对比

维度频率学派贝叶斯学派
参数性质固定值(未知常数)随机变量(具有概率分布)
推断依据仅依赖样本数据结合先验信息和样本数据
结果形式点估计、置信区间后验分布、可信区间
解释方式长期频率解释(如置信水平)概率解释(如参数的后验概率)

10. 常见误区

  • 错误:“95%置信区间有95%概率包含真实参数。”
  • 正确(频率学派):“在重复抽样中,95%的置信区间会覆盖真实参数。”
  • 正确(贝叶斯学派):“95%可信区间有95%概率包含参数。”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/34516.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

《交互式线性代数》

《交互式线性代数》 *Interactive Linear Algebra*由Dan Margalit和Joseph Rabinoff编写,是一本聚焦线性代数的教材。本书旨在教授线性代数的核心概念、方法及其应用,通过代数与几何相结合的方式,帮助读者深入理解线性代数的本质&#xff0c…

CSS -属性值的计算过程

目录 一、抛出两个问题1.如果我们学过优先级关系,那么请思考如下样式为何会生效2.如果我们学习过继承,那么可以知道color是可以被子元素继承使用的,那么请思考下述情景为何不生效 二、属性值计算过程1.确定声明值2.层叠冲突3.使用继承4.使用默…

生活中的可靠性小案例11:窗户把手断裂

窗户把手又断了,之前也断过一次,使用次数并没有特别多。上方的图是正常的把手状态,断的形状如下方图所示。 这种悬臂梁结构,没有一个良好的圆角过渡,导致应力集中。窗户的开关,对应的是把手的推拉&#xff…

怎么解决在Mac上每次打开文件夹都会弹出一个新窗口的问题

在Mac上每次打开文件夹都会弹出一个新窗口的问题,可以通过以下方法解决‌ ‌调整Finder设置‌: 打开Finder,点击“Finder”菜单,选择“偏好设置”。在偏好设置中,选择“通用”标签。取消勾选“在标签页中打开文件夹”或…

HOT100——栈篇Leetcode739. 每日温度

文章目录 题目:Leetcode160. 相交链表原题链接思路代码 题目:Leetcode160. 相交链表 给定一个整数数组 temperatures ,表示每天的温度,返回一个数组 answer ,其中 answer[i] 是指对于第 i 天,下一个更高温…

C++ 返回值优化(Return Value Optimization)

Intro 返回值优化(Return Value Optimization, RVO)是 C中的一种编译器优化技术, 它允许编译器在某些情况下省略临时对象的创建和复制/移动操作, 从而提高程序性能. RVO 主要应用于函数返回值的场景. 两种形式的 RVO 假定我们有这样一个类: class MyClass {std::string nam…

C++内存管理(复习)

1.动态申请多个某类型的空间并初始化 //动态申请10个int类型的空间并初始化为0到9int* p new int[10]{0, 1, 2, 3, 4, 5, 6, 7, 8, 9}; delete[] p; //销毁 2.new/delete new:开空间构造函数 delete:析构函数释放空间 new和delete是用户进行动态内存申请和释放的操作符&#…

计算机视觉——深入理解卷积神经网络与使用卷积神经网络创建图像分类算法

引言 卷积神经网络(Convolutional Neural Networks,简称 CNNs)是一种深度学习架构,专门用于处理具有网格结构的数据,如图像、视频等。它们在计算机视觉领域取得了巨大成功,成为图像分类、目标检测、图像分…

Java数据结构第二十三期:Map与Set的高效应用之道(二)

专栏:Java数据结构秘籍 个人主页:手握风云 目录 一、哈希表 1.1. 概念 1.2. 冲突 1.3. 避免冲突 1.4. 解决冲突 1.5. 实现 二、OJ练习 2.1. 只出现一次的数字 2.2. 随机链表的复制 2.3. 宝石与石头 一、哈希表 1.1. 概念 顺序结构以及平衡树中…

OSPF | LSDB 链路状态数据库 / SPF 算法 / 实验

注:本文为 “OSPF | LSDB / SPF ” 相关文章合辑。 LSDB 和 SPF 算法 潇湘浪子的蹋马骨汤 发布 2019-02-15 23:58:46 1. 链路状态数据库 (LSDB) 链路状态协议除了执行洪泛扩散链路状态通告(LSA)以及发现邻居等任务外,其第三个任…

Android Framework 之了解系统启动流程二

Android Framework 源码阅读系列篇章有: 系统启动流程一之init进程和zygote进程启动分析系统启动流程二之SystemServer进程启动分析 1. SystemServer 进程启动分析 在 系统启动流程一之init进程和zygote进程启动分析 中分析 zygote 进程时,我们知道了…

阿里云企业邮箱出现故障怎么处理?

阿里云企业邮箱出现故障怎么处理? 以下是处理阿里云企业邮箱故障的详细分步指南,帮助您快速定位问题并恢复邮箱正常使用: 一、初步排查:确认故障范围与现象 确定影响范围 全体用户无法使用 → 可能为阿里云服务端故障或网络中断。…

Python----数据分析(Pandas二:一维数组Series,Series的创建,Series的属性,Series中元素的索引与访问)

一、一维数组Series Series:一维数组,与Numpy中的一维array类似。它是一种类似于一维数组的对象,是由一组数据(各种 NumPy 数据类型)以及一组与之相关的数据标签(即索引)组成。 仅由一组数据也可产生简单的 Series 对象,用值列表生成 Series …

小程序配置

注册小程序账号和安装开发工具 参考文档:注册小程序账号和安装开发工具https://blog.csdn.net/aystl_gss/article/details/127878658 HBuilder新建项目 填写项目名称,选择UNI-APP,修改路径,点击创建 manifest.json 配置 需要分别…

前端UI编程基础知识:基础三要素(结构→表现→行为)

以下是重新梳理的前端UI编程基础知识体系&#xff0c;结合最新技术趋势与实战要点&#xff0c;以更适合快速掌握的逻辑结构呈现&#xff1a; 一、基础三要素&#xff08;结构→表现→行为&#xff09; 1. HTML5 核心能力 • 语义化标签&#xff1a;<header>, <nav&g…

【eNSP实战】将路由器配置为DHCP服务器

拓图 要求&#xff1a; 为 office100 和 office200 分别配置地址池 AR1接口配置 interface GigabitEthernet0/0/0ip address 192.168.100.1 255.255.255.0 # interface GigabitEthernet0/0/1ip address 192.168.200.1 255.255.255.0 AR1路由器上创建office100地址池 [AR1…

Stable Diffusion 模型具体如何设置参数?

基础参数设置 随机种子&#xff08;seed&#xff09;&#xff1a;设置一个固定的随机种子值&#xff0c;可以确保在相同文本提示下生成相同的图像。如果设置为-1&#xff0c;则每次生成的图像都是随机的。 num_inference_steps&#xff1a;控制模型推理的步数。步数越多&#…

阿里云服务器购买及环境搭建宝塔部署springboot和vue项目

云服务器ECS_云主机_服务器托管_计算-阿里云 一、前言 对于新手或者学生党来说&#xff0c;有时候就想租一个云服务器来玩玩或者练练手&#xff0c;duck不必花那么多钱去租个服务器。这些云服务厂商对学生和新手还是相当友好的。下面将教你如何快速搭建自己的阿里云服务器&…

ABAP语言的动态编程(4) - 综合案例:管理费用明细表

本篇来实现一个综合案例&#xff1a;管理费用明细表。报表在实际项目中&#xff0c;也有一定的参考意义&#xff0c;一方面展示类似的报表&#xff0c;比如管理费用、研发费用等费用的明细&#xff0c;使用业务比较习惯的展示格式&#xff1b;另一方面正好综合运用前面学习的动…

【Python办公】Excel通用匹配工具(双表互匹)

目录 专栏导读1、背景介绍2、库的安装3、核心代码4、完整代码总结专栏导读 🌸 欢迎来到Python办公自动化专栏—Python处理办公问题,解放您的双手 🏳️‍🌈 博客主页:请点击——> 一晌小贪欢的博客主页求关注 👍 该系列文章专栏:请点击——>Python办公自动化专…