统计学第3天

P值

P值是原假设(零假设)H0为真的前提下,观察到的异常数据出现的概率。

如果P值很小,意味着原假设为真的情况下,取出能拒绝原假设数据的概率极低,此时取出了一个数据和原假设不符,说明了该组数据存在问题,因此就有理由证明原假设为伪。

在假设检验中,证明备择假设H1存在困难,我们去证明它的反面假设原假设H0,P值指的是当H0为真,极端值出现的概率。如果P值很小,说明此种情况发生的概率很小,如果出现了,根据小概率时间原理,有理由拒绝原假设,P值越小,拒绝原假设的理由越充分。

P值是H0能被拒绝的最小值,α是H0能被拒绝的上限控制值

1、双侧检验的P值

若P值≥α/2,不拒绝原假设H0

若P值≤α/2,拒绝原假设H0

2、单侧检验的P值

若P值≥α,不拒绝原假设H0

若P值<α,拒绝原假设H0

因为P值很小的情况下,取出来的异常值的概率就越小,因此P值越小的情况下,此时取出了异常值,这是P值越小拒绝原假设H0的理由就越充分。

P值需要多小才能拒绝原假设呢?

1、假如说原假设是人们之前对某件事情非常笃定(根据以往经验都是这样),这时就需要小的P值;

2、如果拒绝原假设的成本很高,这是就需要较小的P值。

如果给出了P值就不用再过多的关注α了,显著性水平由你自己定,你觉得多大显著就显著,通常P≯0.1,因此α通常取0.1、0.01、0.05,如果P值落在不同地方显著性水平不同,落在临界值附近,和落在临界值很远的地方(需要思考了为什么差别会折磨大)

(1)是数据的概念,与原假设的对与错是无关的。

(2)确定多大的P值有充分的理由拒绝原假设

(3)P值决策优于统计量决策

双侧检验与单侧检验

双侧检验

原假设H0 μ = μ0;备择假设H1:μ≠μ0

1)拒绝域在统计分布的两侧,有两个拒绝域,两个临界值,每个拒绝域的面积为α/2;

2)只要μ>μ0或μ<μ0二者之中有一个成立,就可以拒绝原假设。

利用P值做决策如果P<α,拒绝原假设反之不拒绝原假设

单侧检验

1)拒绝域在统计分布的一侧,有一个拒绝域,一个临界值,拒绝域的面积为α。

一个总体参数的推断

Z分布

Z分布也称标准正态分布,是正态分布的一种特殊形式,特点如下:

均值为0,表示数据以0为对称中心;标准差为1,数据围绕0上下波动;对称性,完全对称;面积和概率,Z分布曲线下,整个面积等于1,任何区域内曲线下的面积代表,该区域内随机变量的取值概率。

标准化公式:(总体均值-样本均值)/样本标准差

用于单个数据点的标准化

用法:单个观测值距离总体均值有多少个标准差,描述单个数据点相对于整体数据集的位置。

X~N(0,1)表示随机变量X服从均值为0,标准差为1的正态分布

假设检验中:

样本均值分布比单个观测点的分布要紧密,所以使用s/sqrt(n)是标准误差,考虑了样本大小对估计的影响。

用于样本均值的标准化

用法:确定样本均值与总体均值之间的差异是否在统计上显著。

α=0.05,Z_{\frac{\alpha}{2} } 就是标准正态分布中使得曲线下从负无穷大到Z_{\frac{\alpha}{2} }点的面积为 0.975 的点。在标准正态分布表中,这个值大约是 1.96。Z_{\frac{\alpha}{2} }=Z_{0.025}≈1.96(从中间区域查出0.975对应的点的横纵坐标值

例:区间估计:该工厂销售部收到36位顾客组成的随机样本,得到每位投保人的年龄数据如下:

试建立投保人的平均年龄的90%的置信区间。

解:已知n=36,1-α=90%的α=0.1,Z_{\alpha/2}=Z_{0.05}(到0.95点横坐标)=1.645,由于总体方差未知,但为大样本,可用样本方差代替总体方差。

\bar{X} = \frac{\sum_{i=1}^{n}X_i}{n}=28.2S = \sqrt{\frac{\sum_{i=1}^{n}(X_i - \bar{X})^2}{n-1}} = 5.3

得:\bar{X}\pm Z_{\alpha/2}\frac{s}{\sqrt{n}}=28.2\pm 1.645\times \frac{5.3}{\sqrt{36}}=28.2\pm 1.5=(26.7,29.7)顾客平均年龄的90%置信区间为26.6~29.7。

例:区间估计:一家工厂生产奶粉为主,工厂质检部为了检验每罐奶粉重量是否符合要求,现从某天生产的一批食品中随机抽取了25罐,测得每罐重量如下表所示。已知奶粉重量的分布服从正态分布,且总体标准差为10g。试估计该批产品平均重量的置信区间,置信水平为95%。

解:已知\sigma=10,n=25,置信水平1-\alpha=95%,Z_{\alpha /2} = 1.96

\bar{X}\pm Z_{\alpha/2}\frac{\sigma }{\sqrt{n}}=2634/25\pm 1.96\times \frac{10}{\sqrt{25}}=105.36\pm 3.92=(105.36,109.28)

该批奶粉平均重量95%的置信区间为101.44~109.28克。

 案例二、某电池厂去年生产的电池质量标准为平均使用寿命1020小时。该厂宣布今年生产的电池寿命相比于去年大大提高。现在从最近生产的一批电池中随机抽取100块电池,测得样本平均寿命为1080小时,标准差300小时。试在0.05显著性水平下判断这批电池的使用寿命是否有明显提高。

解:

H0:μ < 1020没有显著差别

H1:μ ≥ 1020有显著差别

由题意可知,μ0=1020,n=100\bar{X},barX=1080。虽然σ未知,但是n≥30可以使用样本标准差s=300,用Z统计量。

检验统计量:Z=(barX-μ0)/(s/根号n)=(1080-1020)/(3000/根号100)=2.0 Zα=1.645

决策:在α=0.05的水平上拒绝原假设

结论:有证据表名今年生产的电池寿命有显著性提高。

假设检验案例

案例一:成都某豆瓣厂,一条流水线上加工出来的豆瓣每罐的重量服从正态分布,其总计均值μ0=500g,总体标准差为σ=5g。今换一条新流水线加工,抽取n=200罐豆瓣酱进行检验,得到的重量均为499g.试问新流水线的豆瓣酱的重量均值与以前有无显著差异(α=0.05)。

解:在此题中,我们所关心的是新流水线加工的豆瓣酱的重量均值与老流水线加工的豆瓣酱的重量均值500g是否有不同,可以假设

H0:μ =    500g,没有显著性差别

H1:μ <>  500g,有显著性差别

这是一个双侧检验问题所以只要μ>μ0或μ<μ0二者中有一个成立,就可以拒绝原假设。

由题意可知,μ0=500g,s=5g,barX=499g,因为n>30选用Z统计量。

检验统计量:Z=(样本均值-总体均值)/(总体标准差/根号样本容量)

Z=-2.83概率为0.023*2 = 0.046(因为是双侧检验)

其中0.046小于0.05因此推翻原假设

结论:有证据证明新流水线加工的豆瓣酱的重量与老流水线加工的豆瓣酱的重量有显著性差别。

T分布

t统计量:当样本量较小(例如小于30)或总体标准差未知时,t检验是非常有用的。它允许我们通过比较样本均值与总体均值来判断两者是否有显著性差异。

计算公式:

t分布表

t统计量与z统计量之间关系:

定义与使用情形

  • z统计量适用于当总体方差已知且/或样本量较大(一般N≥30)时,用于进行假设检验。标准正态分布(z分布)是基于无限大的样本量,其形状完全已知。
  • t统计量适用于当总体方差未知且样本量较小(N<30)时。t分布考虑了由于样本量较小而产生的不确定性,其形状依赖于自由度(与样本量相关),自由度越大,t分布越趋近于正态分布。

分布

  • z统计量遵循标准正态分布。
  • t统计量遵循t分布。随着自由度的增加(即样本量接近或大于30),t分布形状越来越接近标准正态分布。

临界值

  • 在使用z统计量时,临界值(如Zα/2)从标准正态分布表中查找。
  • 在使用t统计量时,临界值从t分布表中查找,且这个值依赖于特定的自由度。

联系

  • 主要联系是它们都用于确定样本统计量与假设总体参数之间是否存在显著性差异。
  • 当样本量较大时(N≥30),由于中心极限定理,样本均值的分布趋向正态分布,这时t统计量可代为z统计量进行测试,因为二者在大样本下的结果相近。

自由度:比如说给定四个数,他们的均值是10,前三个数据随便取值,最后一个数就固定了(不得不取某个值来维持总体均值为10)【如前三个:11,12,13;最后一个数就固定死了为4】

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/400009.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ICMAN水位接近式检测方案(非接触式)

ICMAN水位液位接近式检测方案&#xff08;非接触式&#xff09; 我们的很多家用电器都会需要&#xff1a;液位检测 缺水&溢水提醒保护、高低液位提醒 液位传感器 像健康家电——烧水煮茶熬养生汤的烧水壶、豆浆机、养生壶等需要缺水保护和防溢液提醒&#xff1b; 像清洁…

DAMA学习笔记(十五)-数据管理组织与角色期望

1.引言 随着数据领域的快速发展&#xff0c;组织需要改进管理和治理数据的方式。当前&#xff0c;大多数组织正面临着越来越多的数据。这些数据格式多样、数量 庞大&#xff0c;并来源于不同的渠道。由于数据数量和种类的增加&#xff0c;加剧了数据 管理的复杂性。与此同时&am…

科研绘图系列:R语言多分组箱线图(grouped boxplot)

介绍 分组箱线图(Grouped Boxplot)是一种用于展示不同组别数据分布情况的统计图表。它将箱线图(Boxplot)按照不同的类别或组别进行分组,使得可以同时比较多个组别的数据特征。 箱线图本身是一种标准化的显示数据分布的方法,它能够展示数据的中位数、四分位数以及异常值…

【upload]-ini-[SUCTF 2019]CheckIn-笔记

上传图片木马文件后看到&#xff0c;检查的文件内容&#xff0c;包含<? 一句话木马提示 检查的文件格式 用如下图片木马&#xff0c;加上GIF89a绕过图片和<?检查 GIF89a <script languagephp>eval($_POST[cmd])</script> .user.ini实际上就是一个可以由用…

RAG与LLM原理及实践(11)--- Milvus hybrid search 源码分析及思想

目录 背景 hybrid search 源码分析 WeightedRanker 源码 hybrid search 核心 参数详解 基本入参 扩展入参 aysnc方式代码调用案例 说明 源码逻辑 prepare 调用过程 stub 调用结果 stub 调用过程 blocking 与 async 调用方式 深入内部core weightedRanker 的ch…

UCOSIII事件标志组详解

UCOSIII中的事件标志组是一种用于任务同步和事件管理的机制&#xff0c;它允许任务和中断服务例程&#xff08;ISR&#xff09;发布事件标志&#xff0c;并允许任务等待这些事件标志的发生。以下是对UCOSIII事件标志组的详细介绍&#xff1a; 1. 定义与创建 定义&#xff1a;…

软考:软件设计师 — 13.数据结构

十三. 数据结构 数据结构部分也可参考文章&#xff1a;Java数据结构知识点 — 5种常见数据结构 1. 线性结构 &#xff08;1&#xff09;线性表 顺序表 线性表的顺序存储是指用一组地址连续的存储单元依次存储线性表中的数据元素&#xff0c;从而使得逻辑上相邻的两个元素…

并行计算模型

像其他专业行话一样&#xff0c;并行计算也有自己的行话。行话就像个大坑&#xff0c;坑中的人需要在其中浸淫很久&#xff0c;才能逐渐适应其语境&#xff0c;然而很多行话的使用常常是草率与不精确的。有时候把鬼都听不懂的行话理解了&#xff0c;再跟别人说鬼话&#xff0c;…

【MySQL 06】表的约束

文章目录 &#x1f308; 一、约束的概念&#x1f308; 二、空属性约束⭐ 1. 空值无法参与运算⭐ 2. 设置非空属性 &#x1f308; 三、默认值约束⭐ 1. 默认值使用案例⭐ 2. 同时设置 not null 和 default &#x1f308; 四、列描述约束&#x1f308; 五、zerofill 补零约束&…

校园外卖平台小程序的设计

管理员账户功能包括&#xff1a;系统首页&#xff0c;个人中心&#xff0c;用户管理&#xff0c;商家管理&#xff0c;菜品信息管理&#xff0c;菜品分类管理&#xff0c;购买菜品管理&#xff0c;订单信息管理&#xff0c;系统管理 微信端账号功能包括&#xff1a;系统首页&a…

【python报错已解决】`IndexError: list index out of range`

&#x1f3ac; 鸽芷咕&#xff1a;个人主页 &#x1f525; 个人专栏: 《C干货基地》《粉丝福利》 ⛺️生活的理想&#xff0c;就是为了理想的生活! 文章目录 引言一、问题描述1.1 报错示例1.2 报错分析1.3 解决思路 二、解决方法2.1 方法一&#xff1a;检查索引范围2.2 方法二…

Java - IDEA开发

使用IDEA开发Java程序步骤&#xff1a; 创建工程 Project&#xff1b;创建模块 Module&#xff1b;创建包 Package&#xff1b;创建类&#xff1b;编写代码&#xff1b; 如何查看JDK版本 Package介绍: package是将项目中的各种文件,比如源代码、编译生成的字节码、配置文件、…

哈希表 - 三数之和

15. 三数之和 方法一&#xff1a;排序双指针 /*** param {number[]} nums* return {number[][]}*/ var threeSum function(nums) {const res [], len nums.length;// 将数组排序nums.sort((a, b) > a - b)for (let i 0; i < len; i) {let l i 1, r len - 1, iNum…

宝塔面板实现定时任务删除 logs文件 加条件删除 只删除一个月前的日志

我们在开发中难免用到了日志功能&#xff0c;随着日志越来越多导致占用我们的内存 下面是一个简单的 使用宝塔面板里面的定时任务来实现删除日志案例 第一步 首先我的日志文件目录 都在log文件夹里面&#xff0c; 每个月生成一个日志文件夹 文件夹命名是年月来命名的 第二…

Java面试八股之什么是AMQP协议

什么是AMQP协议 AMQP&#xff08;Advanced Message Queuing Protocol&#xff0c;高级消息队列协议&#xff09;是一个开放标准的应用层协议&#xff0c;旨在为消息中间件提供一种统一的、标准的通信方式。它允许消息在分布式系统中的应用程序之间进行可靠的、异步的传递。AMQ…

【云原生】Pass容器研发基础——汇总篇

云原生基础汇总 系列综述&#xff1a; &#x1f49e;目的&#xff1a;本系列是个人整理为了云计算学习的&#xff0c;整理期间苛求每个知识点&#xff0c;平衡理解简易度与深入程度。 &#x1f970;来源&#xff1a;每个知识点的修正和深入主要参考各平台大佬的文章&#xff0c…

Linux2.6内核进程调度队列详细讲解

上图是 Linux2.6 内核中进程队列的数据结构&#xff0c;之间关系也已经给大家画出来&#xff0c;方便大家理解。 一个 CPU 拥有一个 runqueue。 Linux真正的调度方式是通过runqueue进行调度的&#xff0c;我们知道进程的优先级范围是根据nice值确定的&#xff0c;而nice值的范围…

Raspberry Pi Pico 2 上实现:实时机器学习(ML)音频噪音抑制功能

Arm 公司的首席软件工程师 Sandeep Mistry 为我们展示了一种全新的巧妙方法&#xff1a; 在 Raspberry Pi Pico 2 上如何将音频噪音抑制应用于麦克风输入。 机器学习&#xff08;ML&#xff09;技术彻底改变了许多软件应用程序的开发方式。应用程序开发人员现在可以为所需系统整…

【单片机】51单片机入门教程(二):定时器的模式详解与中断应用实例

文章目录 51单片机定时器教程:模式详解与中断应用实例1. 介绍2. 51单片机定时器/计数器概述3. 定时器控制寄存器与中断入口4. 模式0:13位定时器/计数器5. 模式1:16位定时器/计数器6. 模式2:8位自动重装载定时器/计数器7. 模式3:分割两个独立的8位定时器/计数器8. 总结51单…

可视化基础的设计四大原则

一个好的数据可视化设计可以帮助观众迅速理解数据背后的意义。然而&#xff0c;如何确保我们的可视化设计既美观又简单易懂呢&#xff1f;本文将介绍四大设计原则——亲密原则、对比原则、对齐原则和重复原则。 1、 亲密原则&#xff08;Proximity&#xff09; 定义与应用&am…