【统计的思想】假设检验(一)

假设检验是统计学里的重要方法,同时也是一种“在理想与现实之间观察求索”的测试活动。假设检验从概率的角度去考察理想与现实之间的关系,籍此来缓解测试可信性问题。

我们先来看一个例子。民航旅客服务系统,简称PSS系统,有一种业务叫换飞机,如果一个航班,原定执飞的飞机出了故障,就需要换飞机。但是可能换不到原来机型的飞机,比如原来是一个空客320,只能换到一个波音737,这就比较麻烦了,系统需要做很多事,要更换航班布局、所有旅客要重新安排座位,等等。用的时间会比较长。

假设PSS系统的一个期望是“换飞机的平均处理时长不超过160秒”。这是一个关于系统性能的期望。测试的时候,我们把换飞机的用例重复执行了6次,发现每次执行的系统处理时长都不一样,平均值是170秒。

那么我们的测试结论应该是什么?能断定系统性能不符合预期吗?显然不能,因为测试结果是一个随机变量,我们只测了6次,如果再多测几次,平均值可能就低于160秒了。

切比雪夫大数定律告诉我们,如果测试的次数足够多,处理时长的算数平均值就会趋近于数学期望,也就是真正的“平均处理时长”。但是我们的资源是有限的,只够我们做6次测试,所以结果一定有偏差,这就是抽样误差。而且,测试的次数越少,测试结果的方差越大,抽样误差也就越大。如果直接拿这样的结果去下测试结论,一定是有偏颇的。这就是测试的五个基本问题之一——测试可信性问题的典型表现。

怎么办呢?还是要依靠统计的思想。如果我们能知道,“6次测试的均值是170秒”,这样一个结果发生的概率是多少,我们就能更准确地判断,系统性能是不是符合预期,或者说,有多大可能符合预期,测试结论就能更靠谱一些。

那么,怎么才能知道170秒这个结果发生的概率是多少呢?这就是抽样分布问题。抽样分布研究的是:从总体中抽取的样本,应该具有什么样的统计特征,跟总体的统计特征有什么关系。这是统计学里的一个重要课题。

比方说,桶里面有4个球,重量分别是2/3/3/4公斤。总体的数学期望是3,方差是0.5,标准差是0.707。我们用放回抽样的方式,从桶里抽2个球当样本,也就是先抽一个,看看是多重的,放回桶里,再抽下一个。可能的抽样结果一共有这样16种:

每种结果出现的可能性是相同的,都是1/16。这样我们就可以算出每种抽样结果的样本均值,以及所有16种样本均值的数学期望和方差。可以看到,样本均值的数学期望和总体的数学期望一样,都是3;样本均值的方差是0.25,也就是总体方差除以样本量2。

如果增加样本量,比如抽4个球,我们会发现结论是相同的,样本均值的数学期望还是跟总体数学期望一样;样本均值的方差还是等于“总体方差除以样本量”——看起来是有规律的。

接下来我们看样本均值的概率分布。来算一下各种不同的样本均值出现的概率,比如16种抽样结果里,样本均值是2.0的情况只出现了一次,所以2.0的概率是1/16;2.5出现了4次,所以2.5的概率是1/4。算出各个样本均值的概率之后,就可以画出样本均值的概率分布曲线了:

看得出来,已经有点像正态分布了。如果样本量是4,样本均值的概率分布曲线是下面这个样子,就更加接近正态分布:

从这个例子,我们可以引出抽样分布的一组基本规律

  1. 样本量越大,样本均值越趋近于服从正态分布。

  2. 样本均值的数学期望与总体的数学期望相同。

  3. 样本均值的方差等于总体方差除以样本量。

到这里,我们就完成了假设检验的理论储备。那假设检验具体是怎么做的呢?我们还是用换飞机的例子来说明。

① 首先第一步是建立假设。我们先假设换飞机的平均处理时长是符合预期的,最多就是160秒。也就是说,总体均值是160。这个假设叫零假设。如果零假设成立,为什么实际测试结果均值会是170秒呢?因为这个170秒是“样本均值”,跟“总体均值”之间有抽样误差。但是根据抽样分布规律,样本均值服从正态分布,有99.7%的概率会落在160附近6倍标准差的范围内,所以这个误差一般不会特别大,如果特别大就说明零假设有问题;

② 那怎么才算特别大呢?我们需要设定一个阈值,也叫显著水平,意思是“理想和现实的差异是不是足够显著”,一般取一个比较小的值,比如0.05。如果一个抽样误差出现的概率比这个显著水平还要低,那这个抽样误差就算“特别大”了,我们就可以认为,出现这种程度的误差是一个小概率事件,在一次测试里面是不可能发生的。这就是小概率事件的实际不可能原理;

③ 第三步,在零假设的基础上,计算测试结果的发生概率。我们做了6次性能测试,相当于抽取了6个样本,样本均值是170秒。按照抽样分布规律,样本均值近似服从正态分布,这个正态分布的数学期望跟总体一样是160。另外假定总体方差已知,是144,那么样本均值的方差就是144/6=24。因此,样本均值的概率分布应该是:\bar{x}\sim N(\mu_{0},\frac{\sigma^{2}}{n})=N(160,24)

在这样一个概率分布上,实际结果是170,也就是说,比均值160高出了10以上。这个结果的概率算下来是:P(T)=1-\Phi(\frac{170-60}{\sqrt{24}} )=0.0207

④ 最后,把这个概率跟显著水平0.05作比较,发现比显著水平要小,说明测试结果是一个小概率事件,但是的的确确发生了。也就是说,从零假设出发推出了矛盾,当然这个矛盾是统计意义上的矛盾。这时候,我们就可以否定零假设,所以最终的测试结论是,在显著水平0.05的意义上,换飞机的平均处理时长不符合预期,超过了160秒。

把假设检验的过程总结成一句话,就是:首先假设理想和现实相符,然后根据抽样分布规律,计算测试结果出现的概率,如果概率比显著水平低,就否定零假设,如果概率比显著水平高,就接受零假设。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/4422.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Ubuntu 24.04 LTS 通过 docker desktop 安装 seafile 搭建个人网盘

准备 Ubuntu 24.04 LTSUbuntu 空闲硬盘挂载Ubuntu 安装 Docker Desktop [我的Ubuntu服务器折腾集](https://blog.csdn.net/jh1513/article/details/145222679。 安装 seafile 参考资料 Docker安装 Seafile OnlyOffice 并配置OnlyOffice到Seafile,实现在线编辑…

移远通信多模卫星通信模组BG95-S5获得Skylo网络认证,进一步拓展全球卫星物联网市场

近日,全球领先的物联网整体解决方案供应商移远通信正式宣布,其支持“卫星蜂窝”多模式的高集成度NTN卫星通信模组BG95-S5已成功获得NTN网络运营商Skylo的网络认证。BG95-S5也成为了获得该认证的最新款移远卫星通信模组。 BG95-S5模组顺利获得Skylo认证&a…

使用SIPP发起媒体流性能测试详解

使用SIPP发起媒体流性能测试详解 一、SIPP工具简介二、测试前的准备三、编写测试脚本四、运行测试五、分析测试结果六、总结SIPP(SIP Performance Protocol)是一个开源工具,专门用于SIP(Session Initiation Protocol)协议的性能测试和基准测试。SIP是一种用于控制多媒体通…

农业农村大数据应用场景|珈和科技“数字乡村一张图”解决方案

近年来,珈和科技持续深耕农业领域,聚焦时空数据服务智慧农业。 珈和利用遥感大数据、云计算、移动互联网、物联网、人工智能等先进技术,搭建“天空地一体化”监测体系,并创新建设了150的全球领先算法模型,广泛应用于高…

HTML学习笔记(4)

目录 一、背景相关样式 二、定位position 三、javascript 1、变量的定义 2、数据类型 3、绑定事件 一、背景相关样式 background-image: url(); // 背景图片 background-repeat: repeat; // 背景图片是否平铺 no-repeat background-size: 200px; // 背景图片尺寸 cover把…

【神经网络基础】

目录 一、神经网络的构成 1.1什么是神经网络? 1.2 激活函数 1.2.1 Sigmoid 1.2.2 Tanh 1.2.3 ReLU 1.2.4 softmax 1.2.5 其他激活函数 1.2.6 选择激活函数 1.3 参数初始化 1.4 模型构建 二、损失函数 2.1 分类问题 2.1.1多分类(多分类交叉…

创建一个简单的spring boot+vue前后端分离项目

一、环境准备 此次实验需要的环境: jdk、maven、nvm和node.js 开发工具:idea或者Spring Tool Suite 4,前端可使用HBuilder X,数据库Mysql 下面提供maven安装与配置步骤和nvm安装与配置步骤: 1、maven安装与配置 1…

Spring Security 6.X + JWT + RBAC 权限管理实战教程(上)

前言 本教程基于 Spring Boot 3.x Spring Security 6.x 实现&#xff0c;采用 JWT Redis 的认证方案&#xff0c;结合 RBAC 权限模型&#xff0c;实现了一个完整的权限管理系统。 一、项目依赖配置 关键依赖说明&#xff1a; <!-- SpringWeb --><dependency><…

InVideo AI技术浅析(五):生成对抗网络

一、特效生成 1. 工作原理 特效生成是计算机视觉中的高级应用,旨在通过算法生成高质量的视觉特效,如风格迁移、图像到图像的翻译等。InVideo AI 使用生成对抗网络(GAN)来实现这一功能。GAN 通过生成器和判别器两个网络的对抗训练,生成逼真的视觉特效。 2. 关键技术模型…

JWT在线解密/JWT在线解码 - 加菲工具

JWT在线解密/JWT在线解码 首先进入加菲工具 选择 “JWT 在线解密/解码” https://www.orcc.online 或者直接进入JWT 在线解密/解码 https://www.orcc.online/tools/jwt 进入功能页面 使用 输入对应的jwt内容&#xff0c;点击解码按钮即可

Ubuntu 24.04 LTS 安装 tailscale 并访问 SMB共享文件夹

Ubuntu 24.04 LTS 安装 tailscale 安装 Tailscale 官方仓库 首先&#xff0c;确保系统包列表是最新的&#xff1a; sudo apt update接下来&#xff0c;安装 Tailscale 所需的仓库和密钥&#xff1a; curl -fsSL https://tailscale.com/install.sh | sh这会自动下载并安装 …

吴恩达深度学习——神经网络介绍

文章内容来自BV11H4y1F7uH&#xff0c;仅为个人学习所用。 文章目录 什么是神经网络引入神经网络神经元激活函数ReLU隐藏单元 用神经网络进行监督学习监督学习与无监督学习举例 什么是神经网络 引入 已经有六个房子的数据集&#xff0c;横轴为房子大小&#xff0c;纵轴为房子…

xiao esp32 S3播放SD卡wav音频

本文旨在使用xiao esp32 S3 播放SD卡上的音频文件 1 硬件准备 SD卡 2 代码实现 2.1 依赖库 ESP32-audioI2S-master 2.2 代码 #include "Arduino.h" #include "Audio.h" #include "SD.h"// Digital I/O used #define I2S_DOUT 6 #defi…

SAP POC 项目完工进度 - 收入确认方式【工程制造行业】【新准则下工程项目收入确认】

1. SAP POC收入确认基础概念 1.1 定义与原则 SAP POC&#xff08;Percentage of Completion&#xff09;收入确认方式是一种基于项目完工进度来确认收入的方法。其核心原则是根据项目实际完成的工作量或成本投入占预计总工作量或总成本的比例&#xff0c;来确定当期应确认的收…

【25】Word:林涵-科普文章❗

目录 题目​ NO1.2.3 NO4.5.6 NO7.8 NO9.10 NO11.12 不连续选择&#xff1a;按住ctrl按键&#xff0c;不连续选择连续选择&#xff1a;按住shift按键&#xff0c;选择第一个&#xff0c;选择最后一个。中间部分全部被选择 题目 NO1.2.3 布局→纸张方向&#xff1a;横向…

Java基础——概念和常识(语言特点、JVM、JDK、JRE、AOT/JIT等介绍)

我是一个计算机专业研0的学生卡蒙Camel&#x1f42b;&#x1f42b;&#x1f42b;&#xff08;刚保研&#xff09; 记录每天学习过程&#xff08;主要学习Java、python、人工智能&#xff09;&#xff0c;总结知识点&#xff08;内容来自&#xff1a;自我总结网上借鉴&#xff0…

OpenWrt 中使用 LuCI 界面部署 Docker 镜像

本篇博客将介绍如何在 OpenWrt 上使用 LuCI 部署 Docker 镜像&#xff0c;以 "hello-world" 镜像为例。 前提条件 已安装支持 Docker 的 OpenWrt 系统。 Docker 服务已在 OpenWrt 上成功安装并运行。 LuCI Docker 插件&#xff08;luci-app-docker 或类似的管理界…

MySQL 主从复制原理及其工作过程的配置

一、MySQL主从复制原理 MySQL 主从同步是一种数据库复制技术&#xff0c;它通过将主服务器上的数据更改复制到一个或多个从服务器&#xff0c;实现数据的自动同步。 主从同步的核心原理是将主服务器上的二进制日志复制到从服务器&#xff0c;并在从服务器上执行这些日志中的操作…

网络编程-UDP套接字

文章目录 UDP/TCP协议简介两种协议的联系与区别Socket是什么 UDP的SocketAPIDatagramSocketDatagramPacket 使用UDP模拟通信服务器端客户端测试 完整测试代码 UDP/TCP协议简介 两种协议的联系与区别 TCP和UDP其实是传输层的两个协议的内容, 差别非常大, 对于我们的Java来说, …

nginx 配置代理,根据 不同的请求头进行转发至不同的代理

解决场景&#xff1a;下载发票的版式文件&#xff0c;第三方返回的是url链接地址&#xff0c;但是服务是部署在内网环境&#xff0c;无法访问互联网进行下载。此时需要进行走反向代理出去&#xff0c;如果按照已有套路&#xff0c;就是根据不同的访问前缀&#xff0c;跳转不同的…