SPSS:数据分析

目录

1、数据采集

2、数据是否服从正态分布

3、T检验(T Test)

4、方差分析(ANOVA)

5、卡方检验(Chi-square Test)

6、灰色关联度分析(Grey Relation Analysis,GRA)

7、弗里德曼检验(Friedman Test)

8、箱图(Box)


1、数据采集

1、数据分类

定性观察、访谈、调查
定量手动测量、自动测量、问卷打分
主观等级、排序、感觉、有用性
客观时间、数量、错误率、分数
自变量不同的实验条件因素,研究的因素
因变量不同的实验条件所影响的、要观测的因素
连续数量值(preference)时间、数量、错误率
离散数量值(usability问卷打分
等级数量值(usability)等级、排序
变量类型
Norminal Data 定类变量变量的不同取值仅仅代表了不同类的事物,这样的变量叫定类变量。问卷的人口特征中最常使用的问题,而调查被访对象的“性别”,就是 定类变量。对于定类变量,加减乘除等运算是没有实际意义的。
Ordinal Data 定序变量变量的值不仅能够代表事物的分类,还能代表事物按某种特性的排序,这样的变量叫定序变量。问卷的人口特征中最常使用的问题“教育程度“,以及态度量表题目等都是定序变量,定序变量的值之间可以比较大小,或者有强弱顺序,但两个值的差一般没有什么实际意义。
Interval Data 定距变量变量的值之间可以比较大小,两个值的差有实际意义,这样的变量叫定距变量。有时问卷在调查被访者的“年龄”和“每月平均收入”,都是定距变量。
Ratio Data 定比变量有绝对0点,如质量,高度。定比变量与定距变量在市场调查中一般不加以区分,它们的差别在于,定距变量取值为“0”时,不表示“没有”,仅仅是取值为0。定比变量取值为“0”时,则表示“没有”。

2、数据采集方法

客观数据避免引入人为误差;根据实际环境和需求确定;问卷调查需要注意方法、形式;加标签等管理方法避免混乱

问卷星:设计问卷,可以在线完成基本的数据分析,也可以和spss相关联进行分析。

问卷网

3、数据分析软件

excel:各条件下观测量的均值、方差、标准误差

Spss:整体的单因素ANOVA分析和两两之间post-hoc分析,获得对应自由度下的比对结果(F,p)

4、数据分析方法

怎么判别我的数据中存在特异值?教你几招!

异常值处理方法
保留异常值采用非参数Friedman test检验;
用非最近端的值代替极端异常值(如用第二大的值代替极端异常值);
因变量转换成其他形式;
将异常值纳入分析,并坚信其对结果不会产生实质影响。
剔除异常值直接删除异常值很简单,但却是没有办法的办法。当我们需要删掉异常值时,应报告异常值大小及其对结果的影响,最好分别报告删除异常值前后的结果。而且,应该考虑有异常值的个体是否符合研究的纳入标准。如果其不属于合格的研究对象,应将其剔除,否则会影响结果的推论。

具体参照师兄的HCI实验数据分析之数据可靠性计算,绘制箱图,描述性变量统计,ANOVA,Bonferroni 的连续变量方差分析

 5、数据分析目的

评价观测变量的效果如何

检验实验条件下的观测变量是否与对比条件有显著区别

2、数据是否服从正态分布

1、 什么样的数据应该满足正态分布

数据类型
连续数据时间、身高、年龄(可以无限限划分)需要正态分布,用于后期参数检验(先假设H0,根据检验结果作出拒绝或接受假设H0的判断)

F检验(ANOVA)

T检验

卡方检验

Bonferroni检验

离散数据评分(只能是1、2、3等整数)非参数检验(无法对总体分布形态作简单假设)

卡方检验

二项分布检验

K-S检验

Friedman检验

变量值随机性检验等

针对连续数据的分析,我们同样应该明白一个概念,假设实验中为什么要进行假设?

假设是为了设定一个衡量标准,通过计算出统计量是否满足一个阈值,来证明你的结果是否和假设一致。

2、为什么要判断数据是否符合状态分布

简单来说,状态分布是最简单的判断数据是否有问题的方法;如果不符合状态分布,一般的F检验、T检验或其它统计分析方法将会失效

3、如何判断一组数据是否符合正态分布

描述统计方法

(用描述的数字或图表来判断数据是否符合正态分布)

Q-Q图

Q是quantile的缩写,即分位数。 分位数就是将数据从小到大排序,然后切成100份,看不同位置处的值。比如中位数,就是中间位置的值。

Q-Q图的x轴为分位数y轴为分位数对应的样本值。x-y是散点图的形式,通过散点图可以拟合出一条直线, 如果这条直线的斜率为标准差,截距为均值.,则可以判断数据符合正态分布,否则则不可以。

 如果拟合出来的直线是45度,可以保证中位数两边的数值分布是一样的,即正态分布中基于中位数左右对称。

SPSS软件实现实例

P-P图

P-P图是根据变量的累积概率对应于所指定的理论分布累积概率绘制的散点图,用于直观地检测样本数据是否符合某一概率分布。如果被检验的数据符合所指定的分布,则代表样本数据的点应当基本在代表理论分布的对角线上。

P-P图的检验原理与Q-Q图基本相同,只是Q-Q图用的是分布的分位数来做检验,而P-P图是用分布的累计比。和Q-Q图一样,如果数据为正态分布,则在P-P正态分布图中,数据点应基本在图中对角线上。

SPSS软件实现实例

直方图

直方图分为两种,一种是频率分布直方图,一种是频数分布直方图。频数就是样本值出现的次数,频率是某个值出现的次数与所有样本值出现总次数的比值。从直方图我们可以很直观的看出这组数据是否符合正态分布。

SPSS软件实现实例

茎叶图

茎叶图的思路是将数组中的数按位数进行比较,将数的大小基本不变或变化不大的位作为一个主干(茎),将变化大的位的数作为分枝(叶),列在主干的后面,这样就可以清楚地看到每个主干后面的几个数,每个数具体是多少。

可以看作事数据化的直方图

统计检验方法SW检验

S:偏度(skewness),是统计数据分布偏斜方向和程度的度量,是统计数据分布非对称程度的数字特征。包括右偏分布(也叫正偏分布,其偏度>0),正态分布(偏度=0),左偏分布(也叫负偏分布,其偏度<0)。公式左1。

W:峰度(kurtosis),表征概率密度分布曲线在平均值处峰值高低的特征数。直观看来,峰度反映了峰部的尖度,计算方法为随机变量的四阶中心矩与方差平方的比值。公式上就是把偏度计算公式里的幂次改为4即可。峰度包括正态分布(峰度值=3),厚尾(峰度值>3),瘦尾(峰度值<3)。公式左2。

SPSS软件实现实例

KS检验

KS检验是基于样本累积分布函数来进行判断的。可以用于判断某个样本集是否符合某个已知分布,也可以用于检验两个样本之间的显著性差异。如果是判断某个样本是否符合某个已知分布,比如正态分布,则需要先计算出标准正态分布的累计分布函数,然后计算样本集的累计分布函数。两个函数之间在不同的取值处会有不同的差值。我们只需要找出来差值最大的那个点D。然后基于样本集的样本数和显著性水平找到差值边界值(类似于t检验的边界值)。判断边界值和D的关系, 如果D小于边界值,则可以认为样本的分布符合已知分布,否则不可以。
AD检验

AD检验是在KS基础上进行改造的,KS检验只考虑了两个分布之间差值最大的那个点,但是这容易受异常值的影响。 AD检验考虑了分布上每个点处的差值。

W检验

W检验(Shapiro-Wilk的简称)是基于两个分布的相关性来进行判断,会得出一个类似于皮尔逊相关系数的值。 值越大,说明两个分布越相关,越符合某个分布。

3、如何将非正态分布数据转换成正态分布

数据不符合正态分布怎么办???别着急,可以进行数据转换,使其满足正态分布

原始数据X(必须为正值),变换后数据X’应用场景
对数变换

X’=lgX

当原始数据中有小值及零时,亦可取X’=lg(X+1)
还可根据需要选用X’=lg(X+k)或X’=lg(k-X)

(1)使服从对数正态分布的数据正态化。如环境中某些污染物的分布,人体中某些微量元素的分布等,可用对数正态分布改善其正态性。

(2)使数据达到方差齐性,特别是各样本的标准差与均数成比例或变异系数CV接近于一个常数时。

平方根变换X’=sqrt(X)

(1)使服从Poission泊松分布的计数资料或轻度偏态资料正态化,可用平方根变换使其正态化。

(2)当各样本的方差与均数呈正相关时,可使资料达到方差齐性。

倒数变换X’=1/X常用于资料两端波动较大的资料,可使极端值的影响减小。
平方根反正弦变换X’=sin-1sqrt(X)常用于服从二项分布的率或百分比的资料。一般认为等总体率较小如<30%时或较大(如>70%时),偏离正态较为明显,通过样本率的平方根反正弦变换,可使资料接近正态分布,达到方差齐性的要求。

SPSS软件实例演示:SPSS实践笔记:将非正态分布数据转换为正态分布。SPSS软件正态转换实例

数据满足正态分布之后,我们就可以进行后续的参数检验了。

师兄的spss数据处理整理

3、T检验(T Test)

 T检验是平均值的比较方法。需要假设再论证。

SPSS官方教程:SPSS Paired Samples T-Test Tutorial

分类定义实例
单一样本T检验(One-Sample T Test)用于比较一个正态总体在方差未知时总体均值与某一已知数是否有显著性差异。或者说,用看比较未知样本总体的均值和已知样本总体的均值(这个是已知的)是否有显著性差异。这里的单一样本是指只有一个样本总体。选取了5个人,测定了他们的身高,要看这五个人的身高平均值是否高于、低于还是等于1.70m
独立样本T检验(Independent-Samples T Test)用于检验两个独立样本是否来自具有相同均值的总体,本质是对两个样本均值之差进行T检验。选取了5男5女,想看男女之间身高有无差异,这样,男的一组,女的一组,这两个组之间的身高平均值的大小比较可用这种方法。
配对样本T检验(Paired-Samples T Test)用于检验两个配对总体的均值是否存在显著性差异。这里的配对是指,这两个样本值之间是一一对应的,样本容量相同。选取了5个人,分别在饭前和饭后测量了他们的体重,想检测吃饭对他们的体重有无影响,就需要用这个t检验。 注意,配对样本t检验要求严格配对,也就是说,每一个人的饭前体重和饭后体重构成一对。

t检验方法是由你的数据特点和你的结果要求来决定的。 t检验会计算出一个统计量来,这个统计量就是t值, spss根据这个t值来计算最终值sig值

sig值的意思就是显著性(significance),即平均值是在百分之几的几率上相等的。

结果结论说明
sig值 > 0.05两组数据差异不显著说明平均值在大于5%的几率上是相等的,而在小于95%的几率上不相等。我们认为平均值相等的几率还是比较大的,说明差异是不显著的,从而认为两组数据之间平均值是相等的。
sig值 < 0.05两组数据差异显著说明平均值在小于5%的几率上是相等的,而在大于95%的几率上不相等。我们认为平均值相等的几率还是比较小的,说明差异是显著的,从而认为两组数据之间平均值是不相等的。

 t检验的几种应用案例,T检验临界值表

4、方差分析(ANOVA)

又称“变异数分析”或“F检验”,用于两个及两个以上样本均数差别的显著性检验。 

生物、化学中和人机交互(HCI)中的repeated measure one-way ANOVA(单因素重复测量方差分析)之间的区别

比如,评价AR系统相对于传统系统是否能显著改变时间

什么样的数据适合单因素方差分析:当我们看到这种要同时比较多组样本的均值时,首先就要想到one-way ANOVA,然后再想想用此检验方法是否真的合适。

单因素方差分析对成组设计的多个样本均数比较,应采用完全随机设计的方差分析单因素方差分析,和Excel示例,SPSS官网教程:SPSS One-Way ANOVA Tutorial
多因素方差分析对随机区组设计的多个样本均数比较,应采用配伍组设计的方差分析多因素方差分析(无重复试验双因素),和SPSS程序实现

如何理解ANOVA中的F值与P值,方差分析(ANOVA)与f值,p值

F:越大,认为数值之间存在的差异就越大。

贼棒贼详细的教程,直接看这个就OK啦:SPSS:单因素重复测量方差分析(史上最详细教程)

这个太复杂,那就先看这个简单点的:单因素方差分析ANOVA及事后检验(这个是单因素,但是包含多个群组,分析群组之间的差异)

5、卡方检验(Chi-square Test)

卡方检验就是检验两个变量之间有没有关系。什么是卡方检验(这个链接说到很好很清楚)

比如,评价出错和AR/传统系统的关系

SPSS官方教程:SPSS Chi-Square Independence Test Tutorial

求卡方值

求自由度

先指定置信度比如:95%

算出自由度和卡方值,根据界值表查询出理论置信度

指定置信度 > 理论置信度认为假设不成立
指定置信度 < 理论置信度认为假设成立

卡方检验实例,和界值表

卡方检验运用中常见的3大错误,来看实例! 

X^2衡量理论与实际的差异程度

P:小于给定的阈值,相关性就越大

6、灰色关联度分析(Grey Relation Analysis,GRA)

是一种多因素统计分析的方法。

简单来讲,就是在一个灰色系统中,我们想要了解其中某个我们所关注的某个项目受其他的因素影响的相对强弱,再直白一点,就是说:我们假设以及知道某一个指标可能是与其他的某几个因素相关的,那么我们想知道这个指标与其他哪个因素相对来说更有关系,而哪个因素相对关系弱一点,依次类推,把这些因素排个序,得到一个分析结果,我们就可以知道我们关注的这个指标,与因素中的哪些更相关

关注这一个博客案例就全明白了:灰色关联度分析(Grey Relation Analysis,GRA)原理详解

7、弗里德曼检验(Friedman Test)

SPSS软件数据分析官方案例

SPSS-Friedman 秩和检验-非参数检验-K个相关样本检验 案例解析

8、箱图(Box)

Box(-and-Whisker) Plot SPSS and Excel 箱图学习

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/54324.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SPSS数据分析

第一题 表1 居民健康状况调查情况 编号 身高 &#xff08;cm&#xff09; 体重 &#xff08;kg&#xff09; 代谢综合征 性别 胆固醇 &#xff08;mmol/L&#xff09; 1 173.0 87.5 0 0 4.17 2 168.0 74.5 1 0 5.43 3 159.5 60.2 0 0 5.15 4 175.2 …

明着呼吁暂停,暗着囤积GPU,马斯克暗度陈仓玩得溜

众所周知&#xff0c;此前马斯克纠集了上千名科技工作者对生成式人工智能的深度训练表示了质疑&#xff0c;呼吁暂停继续对深度人工智能的训练&#xff0c;哪怕先暂停六个月。呼吁的尘埃还没有彻底落地&#xff0c;就传出了马斯克已经悄悄地囤积了上万枚GPU&#xff0c;构建自己…

小红薯笔记/帖子采集工具

小红书【笔记/帖子】采集工具 链接&#xff1a; http://106.53.68.168:9920/xhs-keyword-spider 规则及操作 &#xff08;1&#xff09;规则&#xff1a; 按照关键词抓取规则&#xff1a;标题中或者正文内容中包含该关键词都能被抓取下来。多种搜索模式可选&#xff0c;分别…

Python实现微信自动发送消息

目标&#xff1a; ①Python定时发送微信消息&#xff1b; ②Python实时发送微信消息。 使用键位编码win32api、win32con 或者send_keys实现发送微信消息。 首先以win32api、win32con为例&#xff1a; """ 实现定时自动发送消息 """import tim…

2020年中国数字阅读产品营销洞察报告

全民阅读七入政府工作报告&#xff0c;数字阅读行业乘政策东风。数字阅读行业市场规模2020年预计突破200亿&#xff0c;彰显数字阅读平台具有较高的媒体价值。同时&#xff0c;数字阅读用户规模突破4亿&#xff0c;用户使用时长波动式增长&#xff0c;对平台黏性高。 数字阅读…

数据驱动的互联网营销和运营专用名词速览

来源&#xff1a;网站分析在中国 数据猿官网 | www.datayuan.cn 今日头条丨一点资讯丨腾讯丨搜狐丨网易丨凤凰丨阿里UC大鱼丨新浪微博丨新浪看点丨百度百家丨博客中国丨趣头条丨腾讯云云社区 最基本的名词&#xff08;14个&#xff09; Ads&#xff1a;就是广告&#xff08;名词…

Day06-数据分析在各行各业的应用与数据思维

数据分析在各行各业的应用 数据分析在各行各业的应用 计算机、金融、财务会计、医药专业、艺术专业、语言类专业、法律专业、设计、电商 相信很多人都听到过不少次数据分析这一词&#xff0c;而数据分析这个次近几年来随着互联网的快速发展&#xff0c;成为商业世界中的流行语…

广告营销用户点击预测分析

广告营销用户点击预测分析 零、数据集以及数据集简介以及任务分析一、数据预处理1、加载检查数据&#xff08;1&#xff09;特殊特征&#xff08;2&#xff09;特殊特征的处理&#xff08;3&#xff09;特殊特征处理后生成的新特征 2、数据类型与缺失值处理&#xff08;1&#…

雅思阅读真经总纲_雅思天团集训课流程介绍

欢迎宝宝们来到我们为期7天的雅思天团集训营&#xff0c;下面来给大家介绍一下这7天你将如何度过~ 课程简介及课前准备 本次课程时间为7天&#xff0c;第一天需要同学们提早到场进行签到&#xff0c;最后一天还给同学们安排了有关留学的讲座&#xff0c;为大家介绍2021年留学政…

全渠道数字化营销平台

01 互联网行业背景 在数字经济时代&#xff0c;用户面临的消费场景和沟通场景都更加碎片化。因此&#xff0c;企业急需一款数字化营销工具打造属于自己的用户数据池&#xff0c;深入整合、挖掘现有数据&#xff0c;以更高效、更个性化的方式进行营销活动&#xff0c;实现与用户…

数字化营销服务-如何进行数字化营销?

1、数字营销服务&#xff1a;如何进行数字营销&#xff1f; 第二点是数字营销对比电视、广播等传统营销方式的解读&#xff1b; 第三点是数字营销带来的红利的解读。很多人认为数字营销是一种低成本获取流量的方式&#xff0c;但这其实是一种偏见&#xff1b; (2)尽可能的数…

【PythonBA】商业分析:Business Analytics 的理解

猛戳订阅! 👉 《一起玩蛇》🐍 📜 本章目录: Ⅰ. BA 的基础概念 0x00 什么是商业分析(Business Analytics) 0x01 Explain 和 Predict

利用大数据精准营销,给消费者一个选You的理由!

【数据猿导读】大数据是社会科学重要的进展&#xff0c;但企业要精准抓住未来&#xff0c;经理人要拥有更好的决断力&#xff0c;还是要基于对不同人、不同性的理解&#xff0c;而不仅是科技工具的使用而已。 官网 | www.datayuan.cn 微信公众号ID | datayuancn 尺有所短&#…

关于数字化营销,最通俗的讲解在这里

文章来源&#xff1a;微信公众号接地气学堂 作者&#xff1a;接地气的陈老师 营销向来是各种玄幻词汇出没之地&#xff0c;特别是阿里高调大喊“数字化转型”以后&#xff0c;又冒出来一个“数字化营销”。搞得很多做数据的同学一脸蒙圈&#xff1a;咋个又数字化了&#xff0…

数字化营销怎么做?数字化营销系统有什么特点?

在当今数字化时代&#xff0c;企业想成功做到数字化转型&#xff0c;就要将数字营销与企业发展战略相结合&#xff0c;使用新的营销方式、模式和策略&#xff0c;打通经营的各个环节。数字化营销有哪些特点&#xff1f; 一、业务统一 使用数字化营销系统&#xff0c;可以打通企…

营销系列(1)数字营销通识——广告人应掌握的营销、广告概念

广告是由可识别的出资人通过各种媒介&#xff0c;通常是有偿的、有组织的和非人员性劝服的&#xff0c;进行有关产品&#xff08;商品、服务和观点&#xff09;的信息传播活动。—— William Arens 《当代广告学》 数字营销简介 1、营销的概念 企业为获得利益回报而为顾客创造…

2023商业版ChatGPT网页版源码V4.4+有后台/功能配置多

正文: 4.4版本来了 V4.4 新增注册用户赠送次数自定义 修复前端密钥明文 V4.3 优化首页加载CSS 之前加载的时候div块会往左边跑 代码安全性逻加强 优化首页输入框换行过高的问题 安装教程: 搭建宝塔 解析域名 上传程序至根目录 配置数据库信息:lib/config.php 导入…

PAT乙级1005解题心路,关于测试点1答案错误与3,4段错误

最近在做PAT上的题&#xff0c;做到1005硬是做了很久&#xff0c;老有错误&#xff0c;最后终于做对了&#xff0c;随便写一点东西吧。 话不多说先上题&#xff1a; 继续(3n1)猜想 (25) 卡拉兹(Callatz)猜想已经在1001中给出了描述。在这个题目里&#xff0c;情况稍微有些复…

解题的错误在哪?

题目是有三个整数a&#xff0c;b&#xff0c;c&#xff0c;有键盘输入&#xff0c;输出最大的数 #include<stdio.h> int main() {double a,b,c,max,max1;scanf("%lf,%lf,%lf",&a,&b,&c);if(a>b)maxa;elsemaxb;if(max>c)max1max;elsemax1c;p…