关于显著性检验,有你想要的!

何为显著性检验?

显著性检验(significance test)作为判断两个乃至多个数据集之间是否存在差异的方法被广泛应用于各个科研领域。在统计学中,显著性检验是“统计假设检验”(Statistical hypothesis testing)的一种,显著性检验是用于检测科学实验中实验组与对照组之间是否有差异以及差异是否显著的办法。

“无假设,不检验”。用更通俗的话来说就是要先对科研数据做一个假设,然后用检验来检查假设对不对。一般而言,把要检验的假设称之为原假设,记为 H0;把与 H0相对应(相反)的假设称之为备择假设,记为 H1。

如果原假设为真,而检验的结论却劝你放弃原假设。此时,我们把这种错误称之为第一类错误。通常把第一类错误出现的概率记为α;
如果原假设不真,而检验的结论却劝你不放弃原假设。此时,我们把这种错误称之为第二类错误。通常把第二类错误出现的概率记为β。

通常只限定犯第一类错误的最大概率α, 不考虑犯第二类错误的概率β。我们把这样的假设检验称为显著性检验,概率α称为显著性水平。显著性水平是数学界约定俗成的,一般有α =0.05,0.025.0.01这三种情况。代表着显著性检验的结论错误率必须低于5%或2.5%或1%(统计学中,通常把在现实世界中发生几率小于5%的事件称之为“不可能事件”)。

一个通俗简单的例子

黄老板开了两家超市,分别设在不同的地方。现在存在下列数据作为两个超市分部的销售额,集合中的每一个数代表着一年中某一个月的超市销售额。

分店1 = {23,25,26,27,23,24,22,23,25,29,30}
分店2 = {24,25,23,26,27,25,25,28,30,31,29}

现在,黄老板想要知道两家超市的销售额是否有存在明显的差异(是否存在分店1销售额>分店2销售额,抑或反之),以便对接下来超市的战略业务调整做出规划。下属们知道黄老板的难处,纷纷建议“只需要求平均值就知道哪个分部的销售额更大了”。但是作为拥有高学历的黄老板懂得这样一件哲学即“我们生活在概率的世界之中”。那也就意味着,平均值并不能够说明什么问题,即便分店1的销售额平均值大于分店2的销售额平均值仍然不能说明分店1的销售额一定就大于分店2的销售额,因为“这样一种看似存在的大于关系实质上是偶然造成的而并不是一种必然”。

黄老板最终决定,使用方差验检查这两个数据。最后,黄老板发现,方差检验的 p 值= 0.2027,那也就意味着,虽然分部1的年平均销售额26.63大于分部2的销售额25.18,但是实质上,两家超市的销售额并没有明显的差异。

说道这里,可能会有一些疑问,没关系,笔者一一自问自答。

  1. 如上文所述的一样,“无假设,不检验”,黄老板做了什么样的假设(Hypothesis)?
    由于黄老板想要知道两家超市的销售额是否有存在明显的差异 ,所以他的假设就是“样本集1和样本集2不存在显著性差异,换言之这两个集合没有任何区别(销售额间没有区别)!”这就是黄老板的假设。

  2. p值怎么回事?
    这里并不用管p值是怎样得到的,直接给出结论。在显著性水平α =0.05的情况下,p>0.05接受原假设,p值<0.05拒绝原假设。我们的原假设是样本集Z和样本集H间不存在显著性差异,但是由于p=0.2027>0.05,所以接受原假设,即样本集1和样本集2间不存在显著性差异。当然有接受就有拒接,如果这里的p值小于0.05,那么就要拒绝原假设,即集合1和集合2间存在显著性差异。

怎么做显著性检验?

前面所述都是显著性检验的理论知识,现在开始实践操作(基于MATLAB,主要讲解单因素方差分析)。

假定现在有三组数据:
组一(group1):82 86 79 83 84 85 86 87
组二(group2):74 82 78 75 76 77
组三(group3):79 79 77 78 82 79
现在需要对这三组数据做方差检验,使用anova1函数的方法如下
1.首先将所有的数据放在同一个数组strength中:

>> strength = [82 86 79 83 84 85 86 87 74 82 78 75 76 77 79 79 77 78 82 79];

2.设置对应与strength对应位置的标签为alloy:

>> alloy = {'group1','group1','group1','group1','group1','group1','group1','group1','group2','group2','group2','group2','group2','group2','group3','group3','group3','group3','group3','group3'};

3.调用anova1函数

>> p = anova1(strength,alloy)

最终得到的结果会是一个数值和两幅图。p 值为1.5267e-004,显然,从 p 值看,三组之间存在显著性差异。有一点必须提一下:这里p存在显著性差异并不意味着三组之间两两都存在显著性差异,而只是说明显著性差异在这三组之间存在。

第一幅图是一张表,这张表被称之为 ANOVA 表。如下图所示:
这里写图片描述

对ANOVA表做详细解析:
Source 表示方差来源(谁的方差),这里的方差来源包括 Groups(组间),Error(组内),Total(总计);
SS(Sum of squares)表示平方和;
df(Degree of freedom)表示自由度;
MS(Mean squares)表示均方差;
F表示F值(F统计量),F值等于组间均方和组内均方的比值,它反映的是随机误差作用的大小;
Prob>F表示p值。

率先普及一下p值和F值之间的关系:
F实际值> F查表值,则 p<=0.05;
F实际值< F查表值,则 p>0.05;
不难看出F值在本例中等于15.4,它正是组间方差92.4和组内方差6的比值。(F分布表可自行查阅,这里不展示了)

根据 n=19( Total 的df),m=2(Groups的df)
可得F0.05( m, n-m-1) = F_0.05( 2, 16) = 3.634。F实际值15.4>F查表值3.634,所以可以判定显著性差异存在,且p值小于0.05。

以上讲述了如何仅仅使用F值判断显著性差异的方法并讲述了F值同p值之间的关系。下面这张表格是箱型图,它的看法如下图所表注:
这里写图片描述

这里有必要提一下 anova1 函数中的参数displayopt 的作用。在大规模的 anova1 调用中(例如把 anova1 放在 for 循环中反复调用),需要把 displayopt 设置为’off’,否则 anova1 每调用一次就会绘制两幅图,这样会迅速的耗费计算机的内存,容易造成程序崩溃。

在上文中,我们提到过。方差分析必须满足两条假设,分别是正态性假定和方差齐性假定。因此,在一个完整的统计工程中,必须首先检测数据的正态性假定和方差齐性假定,这就涉及到另外两个函数 lillietest 正态检验函数(这正是我们上文提到的分布假设检验而不是参数检验,它检验的目标是数据集服从何种分布)和 vartestn 方差齐性检验(这正是我们上文提到的参数检验而不是分布假设检验 ,它检测的目标是数据集的分布服从什么样的参数,这里就是方差)。

函数 lillietest(X)

>> [h,p] = lillietest (strength(1:8))
h =0
p =0.5000

解释:h = 0可以认为数据服从正态分布,h=1则认为不服从正态分布
p >0.05可以认为接受原假设h = 0,则数据服从正态分布

>> [h,p] = lillietest (strength(9:14))
h =0
p =0.5000
>> [h,p] = lillietest (strength(15:20))
h =0
p =0.5000

可以得出结论,strength中三组数都服从正态分布。

函数:vartestn(X, Group)

>> p = vartestn(strength',alloy','off')p =0.5142

p>0.05则说明X中的不同Group是齐次的,也就是方差性齐。

注意:X和Group必须是列向量,否则会报错!!

本文主要讲了单因素方差分析,更多的还有多因素方差分析以及非参数检验等相关知识会在后续博文中介绍。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/72403.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

显著性测试(Friedman test, Post-hoc Nimenyi test以及可视化)

&#xff1a; 目标&#xff1a; 1 了解Friedman test的基本原理以及使用实践; 2 了解Post-hoc Nimenyi test 的基本原理以及使用实践&#xff0c;包括结果的可视化。 Friedman test 作用&#xff1a; 简单来说&#xff0c; Friedman test就是一种基于排序的统计方法用来比较…

显著性检测的四种经典方法

最近闲来蛋痛&#xff0c;看了一些显著性检测的文章&#xff0c;只是简单的看看&#xff0c;并没有深入的研究&#xff0c;以下将研究的一些收获和经验共享。 先从最简单的最容易实现的算法说起吧&#xff1a; 1、 LC算法 参考论文&#xff1a;Visual Attention Detection in…

Stata实证:一键显著代码免费教程

目录 一、写在前面 二、使用Python生成可变变量组合 三、Stata代码 四、更进一步-寻找中介效应的控制变量 一、写在前面 &#xff01;&#xff01;&#xff01;&#xff01;&#xff01;…

显著性分析

选择图 为什么要分Non-parametric & parametric 方法 为了找到更符合数据的分析方法。每个方法有自己的假设&#xff0c;如果违背了结果会不精准。 Sign Test 是一个可以用于任何数据分布情况的pairwise 方法。 检查normality: Sample 数量 < 50,适用 Shapiro-Wilk&am…

显著性检测综述(完整整理)

转载请附链接&#xff0c;注明出处。 显著性对象检测综述 参考&#xff1a;http://mmcheng.net/zh/paperreading/ 一、 程明明等人的论文&#xff1a;Salient Object Detection: A Surve&#xff08;简单归纳了文章中的我认为比较重要的部分&#xff09; 该论文旨在全面…

显著性检测数据集—学习笔记

文章目录 DUT-OMRONDUTSHKU-ISECSSD/CSSDSODPASCAL-S参考资料 DUT-OMRON 数据集包含5168张图像&#xff0c;最大边长为400像素&#xff0c;数据集中具有一个或多个显著对象和相对复杂的背景&#xff0c;具有眼睛固定、边界框和像素方面的大规模真实标注的数据集。 论文: C. Ya…

【计算机网络】计算机网络基础知识总结(秋招篇)

文章目录 前言计算机网络笔记TCP和UDP分别是什么 有什么区别基于TCP UDP这两个协议的上层协议有哪些&#xff1f;TCP和UDP分别在哪些领域被用的多&#xff1f;TCP实现可靠性传输用了哪些技术&#xff1f;&#xff08;TCP如何实现可靠性传输&#xff09;讲一下超时重传和超时定时…

汤家凤高等数学基础手写笔记-导数与微分

越来越发现&#xff0c;下层基础决定上层建筑。除了考试&#xff0c;在研究中&#xff0c;我们能够用到的就是理论体系的知识&#xff0c;而不是会做题目的多少。做题目的目的在于加深对基础理论的理解。 本系列笔记汇总之处&#xff1a;汤家凤高等数学基础课2020年基础笔记概…

请教高数题

这里这么多学霸&#xff0c;教我一道不定积分的计算&#xff0c;应该不难吧

【高数】高数竞赛必背重点(随时更)

高数竞赛必背重点&#xff08;随时更&#xff09; 博主高数相关文章链接 左边为必背知识点&#xff0c;右边为备注栏 博主高数相关文章链接 高数第一章节——极限&无穷&连续与间断 高数第二章节——导数&求导法则&高阶导数&微分 高数第三章节——微分中值…

高数做题小技巧:分布积分的计算法—表格法

考研数学3分钟秒杀分布积分的计算法—表格法的拓展理解---bilibili

高等数学辅导讲义_历年真题,复习讲义的经验分享(数二127分)

纯属个人经验 之前的回答里面提到了我使用的教材 2021 考研数学该怎么复习?​www.zhihu.com 其实我刚开始备考的时候,也跟很多人一样,盲目的买了很多教材,又买了很多练习册,刚开始备考的时候看着一大摞书,心里就开始飘了,想着做完这些拿高分还不是轻轻松松 然而现实很残…

高数————思维导图(上岸必备)(积分部分)

高数————思维导图&#xff08;上岸必备&#xff09;(极限与连续). 高数————思维导图&#xff08;上岸必备&#xff09;(微分部分). 高数————思维导图&#xff08;上岸必备&#xff09;(积分部分). 高数————思维导图&#xff08;上岸必备&#xff09;(级数部…

2022张宇考研基础30讲 第八讲 一元函数积分学的概念与计算

文章目录 第八讲 一元函数积分学的概念与计算不定积分原函数&#xff08;不定积分&#xff09;存在定理用导数介值定理解释 定积分变限积分不定积分与变限积分的比较 积分的奇偶性积分的周期性反常积分基本积分公式基本积分方法凑微分法换元法分部积分法&#xff1a; 有理函数的…

2022mathorcupD题思路交流

今年Mathorcup难度整体难度比较大&#xff0c;四道题对算法编程能力要求都较高&#xff0c;计算量都比较大。作为新手的话建议可以优先考虑A和D题&#xff0c;整体对新手稍微友好一些。这里给出D题我的思路&#xff0c;仅供大家参考。移动通信网络站址规划和区域聚类问题&#…

高等数学辅导讲义严选题辅导讲义(学习笔记)

第一章 函数 极限 连续&#xff08;选择题部分&#xff09;&#xff1a; 问题描述 问题分析&#xff1a; 思路&#xff1a;判断ABC三个选项比较复杂&#xff0c;D选项易于判断 解决方法&#xff1a; 问题描述 问题分析&#xff1a; 定理&#xff1a;若f&#xff08;x&#xff0…

【考研笔记】数学一 · 高等数学笔记

考研一战顺利上岸啦&#xff0c;报考专业计算机科学与技术&#xff0c;考的数一英一。现在离开学还有段时间&#xff0c;所以趁机把自己的笔记都整理一下&#xff0c;希望可以帮到一些备考的同学。 写在前面&#xff1a; 首先说一下自己的复习计划跟想法。数一今年有点难&am…

全国大学生数学竞赛备考——高数上(极限、导数、微分、积分、级数)

我真的会忘&#xff08;3&#xff09; 极限两个重要极限公式常用极限公式 导数、微分与积分牛顿-莱布尼茨公式莱布尼兹公式微分中值定理罗马中值定理拉格朗日中值定理柯西定理 泰勒公式几个常见的麦克劳林公式 洛必达曲率曲率圆牛顿迭代法积分中值定理分部积分法 级数正项级数审…

考研数学刷题知能行怎么样?

被考研数学折磨的小伙伴看过来&#xff01; 恭喜你&#xff0c;捡到宝了&#xff01;本人22考研数二选手&#xff0c;人在宿舍&#xff0c;刚下考场。本人从高中开始数学就一直很拉胯&#xff0c;学数学对我来说真的是太折磨了QAQ 从1月份开始准备考研数学&#xff0c;一开始真…