一.耳熟能详的数据你真的了解吗?
1.数据的类型
根据数据的存储形式,可以将数据分为结构化数据和非结构化数据两种类型
存储在数据库中的结构化数据能够很方便地进行检索、分析以及展示分析结果。结构化数据是进 行数据分析的基本类型,大多数的数据分析方法面向的也都是结构化数据
非结构化数据是相对于结构化数据而言的,它的存在形式千变万化,没有统一的规制,包括视频、音频、图片、图像、文档和文本等形式
除了特殊说明的部分,后面提到的数据都是指结构化数据
根据测量尺度的不同,测量得到的数据可以分为四种类型:定类数据、定序数据、定距数据和定比数据
定类数据的数值没有数学意义上的大小关系,它们仅仅代表被测量事物分属在哪个不同的类别或范畴里。因此,这些数值只能用于判断事物“等于”或“不等于”某个事物类型,不能进行加减乘除运算,因为运算的结果是没有现实意义的
定序数据不但有判断被测事 物“等于”或“不等于”某个事物类别的功能,而且还能将被测事物用“大 于”或“小于”号连接起来,比较它们之间的大小或高低
定距数据不仅具备定类数据和定序数据的分类和排序作用,还能够进行数值加减以描述数据之间精准的相加结果或数值差距
因为定距数据和定比数据只是在 0 的含义上有区别,所以在后面的文章介绍中将定比数据和定距数据都看作一类,都称为定距数据,两者不加区别
2.数据描述的三个维度
算术平均值是最常用的数据集中趋势指标,可以分为简单算术平均值和加权算术平均值。算术平均值主要用于定距数据,表示数据集合的 集中趋势。
例如,一个家庭的人均收入、一个省的人均收入、一个国家的人均收入等
算术平均值也能用于定类数据和定序数据,决定算术平 均值是否适用的前提条件是,求得的算术平均值是否具有现实意义。例 如,某个NBA球员的得分排名第六,篮板排名第八,助攻排名第四,三项指标的平均排名是第六,说明这名球员是NBA的顶尖运动员,各项能 力都比较均衡且突出
使用算术平均值的注意事项
算术平均值虽然是应用最广泛的集中趋势指标,受样本数据波动的影响最小,具有一定的稳定性,但是也有明显的缺陷。当数据集合中有极大值或极小值存在时,会对算术平均值产生很大的影响,其计算结果 会掩盖数据集合的真实特征,这时算术平均值就失去了代表性
例如, 国家统计局每年都会公布国民的人均年收入数据,网友们经常调侃自己 拖了国家的后腿,这是因为一些极端的高收入人群拉高了整个社会的人 均年收入水平
有些数据之间的关系不是加减关系,而是乘除关系。此时,应该用 几何平均值来表示由这样的数值组成的数据集合的集中趋势
例如,银行的平均存款年利率、汽车工厂每条生产线的平均产品合格率、国家十年来的平均发展速度等。几何平均值被用于各种定比数据的平均值计算
数据集合中出现次数最多的数值被称为众数。如果在一个数据集合中,只有一个数值出现的次数最多,那么这个数值就是该数据集合的众 数;如果有两个或多个数值的出现次数并列最多,那么这两个或多个数 值都是该数据集合的众数;如果数据集合中所有数据值出现的次数相同,那么该数据集合没有众数。众数对定类数据、定序数据、定距数据 和定比数据都适用,都能表示由它们组成的数据集合的数据集中趋势
中位数的优势在于不受数据集合中个别极端值的影响,表现出稳定的特点。这一特点使其在数据集合的数值分 布有较大偏斜时,能够保持对数据集合特征的代表性。因此,中位数常被用来度量具有偏斜性质的数据集合的集中趋势
3.数据的离散程度描述
在同类离散指标的比较中,离散指标的数值越小,说明数据集合的波动(变异)程度越小;离散指标的数值越大,说明数据集合的波动(变异)程度越大
极差又被称为全距,是指数据集合中最大值与最小值的差值表示
整个数据集合能够覆盖的数值距离
对于任意一个数据集合,表示其离散程度的一种容易想到的度量方式就是与算术平均值的偏离,平均偏差就是这样一种度量指标。但是,这里有一个问题,那就是数据集合中的每个数值与算术平均值之间的偏差之和等于0。为了解决这个问题,统计学家很聪明地使用了绝对值,然后再用平均的方法,消除了负号带来的影响,这就有了平均偏差的产生。平均偏差的数值代表了所有数值与平均值的平均偏差距离
平均偏差使用绝对值来消除负号的影响,另一种消除负号影响的方法是平方,对应的离散程度指标是方差和标准差。方差利用平方克服了 离差和等于 0 的问题,与平均偏差的绝对值有异曲同工之妙。但是方差同样有其局限性,因为方差的单位是数据单位的平方,夸大了数据集合 的离散程度。因此,还可以取方差的算数平方根作为描述离散程度的指标,即标准差
方差和标准差虽然能够表示数据集合中每个数值(个案)距离算术均值的平均偏差距离,但是这个距离的大小程度却不能很好展现,特别是对于算术平均值不同的两个数据集合。如果两者的方差和标准差相等时,那么到底哪个数据集合的离散程度更高、更低或相同?对于这个问 题,方差和标准差解决不了,变异系数却可以。变异系数实质上是标准差相对于算术平均值的大小。 因此,如果比较算术平均值不同的两个数据集合的相对离散程度时,使用变异系数要比使用标准差更具有说服力。此外,变异系数是无单位指标
二.数据分析的内核:推断分析
1.抽样
抽样分析过程的第一步是定义感兴趣的事物总体,根据适当的理论设计 抽样方法,然后从总体中抽取合适容量的样本,对样本进行测量获得样 本数据,最后对样本数据进行描述和推断分析,得到事物总体特征的推 断结论。这就是抽样分析的全部过程。从事物总体中抽取最能够反映总 体情况的样本是抽样分析结果准确的决定性因素之一,因此抽样方法的 选择至关重要
抽样方法可以分成两大类:随机抽样和非随机抽样
为了保证样本推断结论的准确性,一般的抽样方法都必须满足两个条件:独立性和随机性。独立性是指从事物总体中抽取一个个案(单 位),不会影响其他个案(单位)的被抽取概率;随机性是指每一次抽取样本前,事物总体中所有个案都有相同的被抽取概率。满足以上两个条件的抽样方法被称为随机抽样
如果事物总体中所有的个案都有相等的概率被抽取到样本中,那么这种抽样方法就叫作简单随机抽样方法
如果事物总体可以被分为一些不重叠的互斥部分(称为层),层与层之间的个案属性相似,那么该事物总体应 该采用分层随机抽样获取样本
如果总体容量非常大,通常采用的抽样方法是系统随机抽样方法。如果事物总体存在明显的周期性或循环性,那么应该避免使用系统随机抽样
如果总体容量很大且非常分散,那么整群随机抽样就非常合适且能够节省抽样成本。将事物总体的所有个案分为若干个互斥的部分(称为 群),与分层随机抽样不同,群内的个案应该尽可能地具有不同的属性,尽量能够代表事物总体的情况
整群随机抽样可以分为单个阶段整群随机抽样、两个阶段整群随机抽样和多个阶段整群随机抽样,它们的 区别在于两个阶段整群随机抽样是对单个阶段整群随机抽样结果的再次 抽样,以此类推,多个阶段整群随机抽样要进行多次的整群随机抽样
在随机抽样中,事物总 体的每个个案在每次抽样前,被抽取进入样本的概率是确定和相同的, 不满足这一原则的抽样方法就被称为非随机抽样,也叫作非概率抽样
2.数据的处理
如何正确地存储数据呢?可以借鉴数据库的数据存储模式
3.样本到总体的桥梁:抽样分布
用样本推断总体,其中最重要的推断内容之一就是用样本的描述性统计指 标推断出总体的描述性统计指标,也就是能够表现总体集中趋势、离散 程度和分布形态特征的指标,从而还原出总体数据的形象。在这里,描述性统计指标也被简称为参数。连接样本参数和总体参数的桥梁就是抽 样分布
三种抽样方式:
从无限总体进行抽样(总体容量N至少是样本容量n的50倍以上)
从有限总体进行有放回抽样
从有限总体进行无放回抽样
运用最多的抽样分布有:Z分布、T分布、F分布和卡方(χ2)分布
①Z分布
样本均值推断总体均值是最重要的推断统计学内容,样本均值的抽样分布是样本均值推断总体均值的桥梁。统计学家们经过研究发现,样本均值的抽样分布有一个重要的特性,我们称之为中心极限定理
Z分布的适用条件有两个:正态分布总体抽样或样本容量大于或等于 30,两个条件满足其一即可。而Z分布是均值抽样分布,因此,它是样本均值推断总体均值的桥梁。从Z统计量 的计算公式可知,Z分布能够通过样本信息推断总体均值
Z分布其实就是标准正态分布。如果样本均值组成的 抽样分布服从正态分布,那么将该正态分布标准化后即可得到Z分布, 因此Z分布是均值抽样分布的一种类型
Z分布的适用条件有两个:①样本来自正态分布总体,且总体标准差已知 ②总体分布情况未知, 但样本容量大于或等于30。在这两种情况下,由样本均值组成的抽样分 布服从正态分布,所以可以标准化为Z分布
②T分布
Z分布只能覆盖部分均值抽样分布的情况,它特别适合总体标准差σz已知的正态分布总体或样本容量 大于或等于30的任意分布总体的抽样情况。对于总体标准差σz未知的情 况,我们引入另一个重要的均值抽样分布类型——T分布
如果已知等待分析的总体服从正态分布,从总体中抽取容量为n的 所有可能样本,对每个样本都计算出它们相应的T统计量,则所有T统 计量的值将组成一个连续型概率分布,这个分布就是T分布
定义:如果总体服从正态分布,总体标 准差未知,样本容量小于30,那么样本均值的抽样分布服从T~t(n- 1)的T分布;如果总体服从正态分布,总体标准差未知,样本容量大于 或等于30时,那么样本均值的抽样分布不仅服从T~t(n-1)的T分布, 而且还可以用Z分布来近似表达
作用:从T统计量的计算公式可知,T分布能够在部分已知条件下,用于总体均值的推断分析,它与Z分布是适用范围互相补充的关系
③切比雪夫定理
假设有数据集合(x1,x2,...,xn),其均 值等于μ,标准差等于σ,对任意常数k≥1,位于区间[μ-kσ,μ+kσ]内的 个案比例会大于或等于(1-1/k2),即P(μ±kσ)≥1-1/k2
④卡方(χ2 )分布
如果样本量为n的所有可能样本均取自方差为σ2的正态分布总体,对每一个样本都计算它的卡方值(χ2),那么这些卡方值将构成关于样 本方差和总体方差的卡方分布
从卡方统计量的计算公式可知,卡方分布能够用于从样本方差到总 体方差的推断性分析。除此之外,卡方分布还能用于非参数检验,被称为卡方检验
⑤F分布
F分布处理的 则是两个总体之间的关系,即通过两个样本之间的关系推导出两个总体之间的关系
F分布能够用于推断两个总体方差之间 的比值关系,是后面所要介绍的方差分析的理论基础
4.数据分析的第一板斧:参数估计
参数估计就是用抽样分布作为中介,用样本的参数特征对总体的参 数进行数值估计的过程。根据总体参数估计结果的性质不同,可以分成两种参数估计类型:点估计和区间估计。参数估计主要围绕均值、方差 和标准差展开
①点估计
点估计就是用某个具体的样本参数直接代表未知的总体参数,这是 最简单直接的参数估计方式
②区间估计
区间估计就是推断总体参数时,根据抽样分布的特征,给出可能包 含总体参数的一个数值区间(点估计只是一个具体数值),同时给出总 体参数落在这个区间的可能性,即概率保证
③置信水平、置信区间和显著性水平
置信区间是根据样本信息推导出来的可能包含总体参数的数值区间;置信水平表示置信区间的可信度。置信水平用百分数表示,也可以称为置信度,表示成(1-α)100% 的形式。α指的是显著性水平,表示总体参数不落在置信区间的可能 性。置信水平和显著性水平是区间估计和假设检验的必备表述,用来表示样本推断总体的可信度。置信水平一般设为90%、95%和99%
④双侧置信区间和单侧置信区间
置信区间分为双侧置信区间和单侧置信区间
5.数据分析的第二大板斧:假设检验
假设检验分析方法其实是由假设和检验两个步骤组成的,假设是指 对事物总体的参数设立成对假设,检验是指检验设定的假设是否成立, 而检验设定的假设是否成立的依据依旧是抽样分布,这点与区间估计是 一样的
区间估计和假设检验对比
不同点:两者的不同之处在于样本数据的用途不一样。对于未知的总体参数,参数区间估计是用样本数据计算得到总体的置信区间。区间 估计事先设定了分析者可接受的置信水平α,然后用样本数据特征和置 信水平计算出总体参数可能落入的置信区间
相同点:总体参数区间估计和假设检验的基础都是抽样分布,利用 抽样分布的分布特性推导出区间估计和假设检验的概率公式
两者都需要用 到抽样分布,根据已知数据场景和需要分析的总体参数不同,适用的抽 样分布也会不同。除此之外,假设检验比区间估计多了一个已知条件, 即假设总体参数等于某个常数,从而由区间估计的计算置信区间变为假 设检验的比较临界值判断假设是否成立
原假设和备择假设:进行假设检验时,首先要对总体的某个参数建立成对假设,并在随后对成对假设所包含的信息进行验证,成对假设包含两个假设内容:原 假设和备择假设。它们是互相对立的
原假设通常表示为总体参数等于 某个常数或等于另一个总体的参数,用H0表示。原假设的假设信息会被代入到式子中进行验证,如果验证的结果不能拒绝原假设,就需要接受原假设所包含的信息,认为该信息是合理的;如果验证的结果拒绝了原假设,则必须接受另一个假设,也就是备择假设,用H1表示。在建立了总体参数的成对假设以后,检验的结果或者是原假设成立,或者是备择假设成立,两者必选其一
接受域和拒绝域:原假设和备择假设设定以后,下一步就是检验。在检验之前,需要设定一个检验标准,用以判断从总体中抽取的样本所展现出来的数据特 征是接受原假设,还是拒绝原假设。这个判别标准就是给定一个小概 率,根据“小概率原理”做出判断
小概率原理是指如果一个事件的发生 概率很小,那么它在一次试验中是几乎不可能发生的。在这里,如果小 概率事件发生了,那么原假设将不被接受,转而接受备择假设。小概率 用α表示,也被称为显著性水平。其实大家对它应该很眼熟,因为在介 绍参数估计时常用到置信水平(1-α),其中的α就是显著性水平
对假设进行判别时,无论是单侧检验还是双侧检验,它们的判别原则为:① 如果样本计算结果落在接受域内,则接受原假设,同时拒绝 备择假设 ②如果样本计算结果落在拒绝域内,则拒绝原假设,同时接受备择假设
两类错误:①计算结 果落在接受域,而实际结果却在拒绝域 ②计算结果落在拒绝域,而实际结果却在接受域
在假设检验中,如果检验结论是拒绝原假设,接受备择假设,那么犯“弃真”错误的概率很小,其概率最大值也就是显著性水平α。如果检验结论是接受原假设,拒绝备择假设,可能犯的错误为“取 伪”错误,因为犯“取伪”错误的概率由总体参数的真实分布情况决定
因此,“取伪”错误的概率β是不可知的。从这一点来看,所谓接受原假设,实际上是不能拒绝原假设,即在没有足够证据证明原假设是错误的情况下只能接受。虽然犯“取伪”错误的概率β在假设检验时是未知的, 但对于一个固定的总体来说,当给定显著性水平α以后,β的数值也就随之确定
假设检验的一般步骤
假设检验都是先设立假设,后检验假设,检验假设是否能被接受的 依据就是各种抽样分布,不同总体参数或总体参数关系的假设检验适用 不同的抽样分布。例如,总体均值的假设检验适用Z分布和T分布;总 体方差的假设检验适用卡方分布;两个总体方差比的假设检验适用F分布等
进行假设检验时,一般按照以下五个步骤进行操作
1 根据实际问题建立原假设和备择假设
2 选择合适的置信水平1-α(显著性水平α)
3 选择合适的样本统计量,并确定以原假设为真时的抽样分布
4 确定临界值
5 进行判别,得出结论
通过以上假设检验的基本概念介绍,我们可以清楚地知道,假设检 验与区间估计一样,它们的基础都是各种抽样分布。在总体参数的估计中,我们重点介绍的是总体参数的区间估计,根据样本数据推断总体参数在某个置信水平下的置信区间,包括总体均值、总体方差、两个总体方差比的置信区间
在介绍总体参数的置信区间时,我们是按照抽样分布的顺序介绍的,而介绍假设检验时,由于用于假设的总体参数主要是总体均值,其他的总体参数类型的假设检验较少,所以我们根据原假设中涉及的样本数目(总体数目)进行介绍,分为单样本假设检验、两样本假设检验和多样本假设检验
单样本假设检验的过程可以分为五个步骤
①建立原假设和备择假设
②选择合适的置信水平1-α(显著性水平α)
③根据需要判断的总体参数类型,选择合适的抽样分布及其统计量
④从总体中抽取随机样本,将样本参数和原假设中的常数代入抽 样分布对应的统计量计算公式中,得到原假设常数在抽样分布中对应的 统计量数值,查询相应的抽样分布表,确定其相伴概率值p
⑤对比相伴概率p值和显著性水平α,如果p<α,那么结果落入拒绝域,则拒绝原假设,接受备择假设,如果p≥α,那么结果落入接受域,则接受原假设,拒绝备择假设
这里说的单样本和两样本并不是指从某个总体中抽取一个样本和两个样本的意思,而是指从一个总体和两个总体中抽 取样本。因此,这里的数字一和二指的是总体的数量,而非样本的个 数
两样本假设检验的作用就是通过从两个总体中抽取样本,然后用样本参数检验这两个总体同类型的未知参数的关系(差别)。为了达成上述目的,同样需要选取合适的抽样分布和统计量
6.数据分析的第三板斧:非参数检验
非参数检验主要有以下三个用途:①检验单个总体的分布形态 ②比较两个(多个)总体的分布形态差异 ③定类(定义)数据的独立性检验
卡方检验的最终目标就是检验和判断观测频数与期望频数之间是否存在显 著性差异。因为卡方检验的目标数据是频数数据,所以要求对个案进行 分类并计算频数,因此卡方检验通常面向定类数据或低测度定序数据。 定类或定序数据能够将个案分类并计算实际频数,然后通过实际频数与 期望频数的距离来判断实际频数是否与预期频数(期望分布)存在显著性差异
卡方检验有两种基本应用:其一,检验实际观测值分布与期望分布是否存在显著性差异,也就是检验数据总体分布是否服从某个已知期望 分布;其二,基于交叉表检验两个分类变量在各自不同的因素水平上的 卡方距离,从而实现两个分类变量的独立性(相关性)检验
三.数据分析的终极目的:为我所用
1.相关是继续分析的前提
相关关系是指变量的数值之间存在着依存关系,即一个变量的数值会随着另一个变量或几个变量的数值变化而呈现出一定的变化规律
相关分析是对变量之间的相关关系进行量化处理的过程,不仅要确定相关关系的类型,还要确定相关关系的强度。相关分析不是一个从无到有的过程,也就是说,实质上没有相关关系的变量不会由于相关分析 而形成相关关系,相关分析只是起到揭示变量之间原本存在的相关关系的作用
相关分析主要有以下几种类型:两变量的相关分析、偏相关分析和距离相关分析等
2.回归是相关分析的归宿
相关分析与回归分析有着密切的联系,在对变量之间的关系进行研究时,首先需要通过相关分析确定变量之间的相关关系,然后通过回归分析确定变量间的函数关系
相关分析和回归分析是相互补充的关系:相关分析要为变量之间建立函数关系提供变量之间相关的依据,而回归分析则确定变量之间的具体函数关系。只有变量之间存在高度相关关系,进行回归分析才有可能得到正确的结果。同理,只有通过回归分析掌握了变量之间具体的函数关系,相关分析才有意义。相关分析与回归 分析通常是结合在一起使用的
3.发现事物随时间变化的规律
时间序列就是将事物或现象在不同时间上的等待分析数值按照时间的先后顺序进行排列而形成的一种数列
按研究对象的数量进行分类,可以分为一元时间序列和多元时 间序列。按时间的连续性分类,可以分为离散型时间序列和连续型时间序列两种
按照变量数值的表现形式分类,可以分为绝对数时间序列、相对数时间序列和平均数时间序列三种