对应分析介绍及SPSS案例分析

在开展统计分析的过程中,分类变量(定序和定类变量)是我们研究的一个重点。通常我们分析分类变量间关系时,最常用的分析方法是卡方检验,其次是逻辑回归和对数线性模型等。

如果类别变量的分类较少,我们可以通过卡方检验判断行变量和列变量间是否相互独立,同时还可以通过查看列联表或进行进行事后两两比较,判断各变量的不同组别间具体存在怎样的差异

 

但如果涉及的分类变量较多时,卡方检验能给的信息就很有限了,它并不能告诉我们两个变量之间具体存在怎样的联系。而逻辑回归方法和对数线性模型等方法的操作和解释相对比较复杂,学起来比较让人头疼。所以今天我想向大家介绍对应分析方法。

对应分析方法又称相应分析,它善于展示两个/多个分类变量各类间的关系,能够将交叉列联表的数据信息转化为二维散点图,直观、简单的描述庞杂的列联表数据中所蕴含的对应关系。

它是于1970年由法国统计学家J.P.Beozecri提出来的,起初在法国和日本最为流行,后来引入到美国,是在R型和Q型因子分析基础上发展起来的一种多元统计方法。

简单对应分析是分析某一研究事件两个分类变量间的关系,其基本思想以点的形式在较低纬的空间中表示列联表的行和列中各元素的比例结构,可以在二维空间更加直观的通过空间距离反映两个分类变量间的关系。属于分类变量的典型相关分析。

Fisher在1940采集了5387名苏格兰人的眼睛和头发颜色数据,并利用对应分析方法分析了眼睛颜色和头发之间是否存在显著关系,这是利用对应分析方法开展的经典案例。有关这个案例的分享很多,感兴趣的读者可以到网上搜索查看。



 

案例数据集介绍

接下来我将用SPSS中的自带数据集coffee.sav向大家介绍对应分析方法。

研究者收集了4662份有关6个冰咖啡品牌与23张感知图像的数据,其中6个品牌分别表示为AA、BB、CC、DD、EE和FF,23张感知图像表示的是不同的形象特征。研究者希望知道这6个冰咖啡品牌和23种感知图像之间是否存在何种联系,即不同的冰咖啡品牌是否更倾向于某种品牌形象。

打开数据集:

选择文件 -> “欢迎”对话框(SPSS25及以上版本),在欢迎对话框中选择样本文件, 选择coffee.sav,选择打开。SPSS会自动打开这份数据文件。

.

 

该数据集的部分数据截图如下所示:

 



 

数据分析1:个案加权

当涉及到分类变量的频数分析时,一般都需要对数据进行加权处理。(扩展阅读:加权到底是怎么回事儿?

在本案例中,频率变量记录了不同品牌与不同图像属性相关的频数,因此我们需要对频率变量进行加权。

加权操作步骤:选择菜单数据 ->个案加权,将频率变量拖入频率变量,点击确定。对话框如下图所示:

 




 

数据分析2:卡方检验

因为对应分析不能用于相关关系的假设检验,所以在开展对应分析之间需要先对数据进行卡方检验,判断行变量和列变量之间是否独立。只有两变量之间存在显著联系,才能开展下一步的对应分析。

卡方检验操作步骤:选择菜单分析 -> 描述统计  -> 交叉表,将图像品牌变量分别放入行列对话框;点击统计按钮,在统计复选框中勾选卡方,点击继续,点击确定。对话框如下图所示:

 

得到的分析结果如下:

 

从上方的卡方检验分析表来看,卡方值为3746.968,P值=0.000(<0.05),说明图像和品牌变量之间存在显著关联。

但究竟存在怎样的关联呢?卡方检验不能给我们答案,接下来,我们需要采用更复杂的对应分析方法才能得到进一步的分析结果。

数据分析3:对应分析

对应分析的操作步骤1

选择菜单分析 -> 降维  -> 对应分析,将图像品牌变量分别选入行和列;

 

对应分析的操作步骤2

在相应的行和列下面定义范围,根据选取的变量分别填入最小值和最大值;其中图像变量的定义范围是1~23,品牌变量的定义范围是1~6;

 

对应分析的操作步骤3

点击模型按钮,进入模型复选框;对话框如下图所示:

 

解的维数:相当于因子分析和主成分分析中的维数,通常默认为2,也可以根据累计方差(一般大于85%即可)来选择;
距离度量:像本案例中的分类变量一般都选择“卡方”,而数值变量则选择“欧式距离”;
标准化方法:选择“除去行列平均值“;

标准化方法:

a:除去行列平均值:行和列均中心标准化;

b:除去行平均值:对行中心标准化;

c:除去列平均值:对列中心标准化; 

d:使行总计相等,并除去平均值:使行的边际相等,对行中心化;

e:使列总计相等,并除去平均值:使列的边际相等,对列中心化;

正态化方法:选择默认值“对称”;

正态化方法: 

a:对称法:适用于行列变量间有相关关系; 

b:行(列)主成分:适用于行(列)变量间有一定的差别; 

c:主成分法:既考虑行,也考虑到列;

对应分析的操作步骤4

点击统计按钮,进入统计复选框,勾选前3个选项即可:

 

统计量: 

a:对应表:生成行列对应表; b:行点概述:行变量的因子分析表; c:列点概述:列变量的因子分析表;d:对应表的排列:研究一定维数的对应表(此处的维数应小于对应表中的最大维数);e:行概要:行变量的频数分布表; f:列概要:列变量的频数分布表; g:置信统计量:显示在95%置信区间下的统计量。

对应分析的操作步骤5

点击按钮,进入图形复选框,选择如下默认选项即可:

 

图形复选框:

a:双标图(必选):可以在双坐标轴上,同时展示行列变量在坐标系中的距离关系; b:行(列)点:行(列)变量的散点图; c:标识标签宽度:为≤20的整数; d:折线图(通常不选):已转换的行(列)类别是指由行(列)的因子构成的折线图;e:图维数直接选择默认选项“显示解中的所有的维”即可; f:限制维数:最低维数通常设定为1,最高维数设定为总体样本量-1;

上述5步均设置完成后,点击继续,点击确定,即可得到对应分析结果,其中主要包括6个图表。

分析结果解析

(1)信用表

 

对应分析结果中首先会输出该模块的版权信息,说明该模块是由荷兰的了Leiden大学Leiden SPSS课题组编制的。这部分信息与我们的分析结果无关,可以忽略。

(2)交叉列联表

 

上表是图像变量和品牌变量组成的交叉列联表,交叉单元格内的数值代表频数,在之前的卡方检验环节也有输出。

对应分析后续的计算完全是基于该交叉列联表展开,所以它在分析环节十分重要。

不过这个列联表呈现的数字信息较多,阅读效果并不直观,我们没有必要对它花太多时间,稍加浏览无异常值即可。

 

上表是对应分析的结果汇总表。在对应分析中,最多可提取的维数等于两变量最小类别数-1。但往往前2~3个维度就携带了绝大多数的信息,因此可以只对前几个维度进行观察。

在本案例中,变量的最小类别数是6,所以摘要表中提取了5个维数。前3个维数的累积携带了91.3%的原始信息量,即已经携带了绝大部分的信息,因此我们只需要对前3个维度进行进一步考察。

最后一行显示的是上方交叉列联表的卡方检验结果,这部分与我们之前单独开展的卡方检验结果一样,说明品牌变量和图像变量之间存在显著关联,使对应分析结果有实际意义。

(4)行(列)点总览

 

上面的两个表是行变量和列变量各类别的分析结果概况,由于各类别均以散点的形式在空间中呈现,故称行/列点总览。表中主要给出各类别在各维度上的评分,以及相应的贡献量两大类信息。

 

以上面的“列点总览表”为例:

数量”实际上就是指各类别的构成比,如:品牌AA占总数的构成比是21.7%,以此类推。构成比越高,说明越不易受个别极端样本值的影响。

“维得分”给出了各类别在相关维度上的评分,如:品牌AA在二维空间中的坐标值是(-0.782,-0.073),依次类推,根据坐标值能得到最终的对应分析散点图。

然后给出“惯量”在列变量中的分解情况,它反映了总惯量(0.804)中分别由各列变量类别提供的部分,数值越大,说明该类别对惯量的贡献越大,此处贡献最大的是品牌CC。

贡献”给出在各维度上信息量在各类别间的分解情况。“点对维的惯量表示分类变量中每个类别对维度的贡献,如:本例中可见第1维度的信息主要被CC、DD这2个品牌所携带,说明这2个类别在第1维度上表现较好;第2维度的信息主要被EE、FF这2个品牌所携带,说明这2个类别在第2维度上表现较好

维对点的惯量”正好相反,表示每个类别信息分别在两个维度的比例,例如品牌AA的信息在第1个维度中占74.4%,在第2个维度只有0.4%。

(5)对应分析散点图

 

在上图的对应分析散点图中,分别向X轴和Y轴加入参考线,两条参考线相交于原点(0,0),原点表示没有任何倾向,没有任何关联的一个中心位置。

散点图显示“新鲜的”和“丑的”都非常接近原点;在散点图的左上角,“强悍”、“男人”、“工作的”靠得较近;左下角是“甜的”、“肥的”、“孩子”、“优质的”靠得较近;“健康”、“低脂”、“营养”、“新的”集中在散点图的右侧。

 

左上角的品牌EE所展示的品牌联想多与男性、强硬,工作相关;AA品牌是最受欢迎的,也被认为是咖啡因含量最高的;BB和FF品牌让人更多的联想到“甜的”、“优质的”、“使人发胖的”等关键词;CC和DD品牌虽然被认为是新的和健康的,但也是最不受欢迎的。

同时,为了进一步的解释,我还在散点图上绘制了一条经过原点的斜45°的直线。你会发现这条线穿过了男性形象和雅皮士这两个属性,而且男性品牌的联想模式与雅皮士品牌的联想模式相互对立。也就是说,“强硬的”、“男人”最常与EE品牌相关,最少与CC品牌相关,而雅皮士最常与CC品牌相关,最少与EE品牌相关。

通过上述的对应分析散点图,我们就可以非常直观而简明的得到品牌与图像之间的关联特征。


对应分析の注意事项

  1. 对应分析不能用于相关关系的假设检验。它虽然可以揭示变量间的联系,但仍然只是一种统计描述方法,不能说明两个变量之间的联系是否显著,因而在做对应分析之前,可以用卡方统计量检验两个变量的是否独立。
  2. 对应分析输出的图形通常是二维的,这是一种降维的方法,将原始的高维数据按一定规则投影到二维图形上。而投影可能引起部分信息的丢失。
  3. 对极端值敏感,应尽量避免极端值的存在。如有取值为零的数据存在时,可视情况将相邻的两个状态取值合并。对于小样本不推荐使用。
  4. 原始数据的无纲量化处理。运用对应分析法处理问题时,各变量应具有相同的量纲(或者均无量纲)。
  5. 无法自动判断最佳维度数,所需维度数需要研究者根据专业知识自行决定。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/91842.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Clickhouse基于文件复制写入

背景 目前clickhouse社区对于数据的写入主要基于文件本地表、分布式表方式为主,但缺乏大批量快速写入场景下的数据写入方式,本文提供了一种基于clickhouse local 客户端工具分布式处理hdfs数据表文件,并将clickhouse以文件复制的方式完成写入…

selenium.webdriver Python爬虫教程

文章目录 selenium安装和使用 selenium安装和使用 pip install selenium 下载对应的浏览器驱动 实例化浏览器 from selenium import webdriverbrowser webdriver.Chrome()元素定位 控制浏览器

浪潮信息赵帅:多元算力时代 开源开放的OpenBMC成为服务器管理优先解

“多元算力时代下,大规模的异构服务器设备面临多种处理器架构、多种设备协议、不同管理芯片兼容的系统化设计挑战,管理固件也迎来新的变革。开源开放的OpenBMC,以创新的分层解耦软件架构,兼容不同处理器架构、算力平台和管理芯片&…

JS导出复杂多级表头的Excel

使用方式 1、安装依赖 npm install xlsx-js-style2、复制代码文件exportExcel.js至工程 https://github.com/EnthuDai/export-excel-in-one-line 3、在引入excel.js后调用 Excel.export(columns, dataSource, 导出文件名)4、代码demo 5、效果 页面excel 适用范围 对于使…

视频汇聚平台EasyCVR视频监控播放平台WebRTC流地址无法播放的问题解决方案

开源EasyDarwin视频监控TSINGSEE青犀视频平台EasyCVR能在复杂的网络环境中,将分散的各类视频资源进行统一汇聚、整合、集中管理,在视频监控播放上,TSINGSEE青犀视频安防监控汇聚平台可支持1、4、9、16个画面窗口播放,可同时播放多…

excel入门

上下左右移动 enter:换行,向下移动 shiftenter:向上移动 tab:向右移动 shifttab:向左移动 合并居中操作 开始-》合并居中 CtrlM 内容过长盖过了下一个单元格内容 双击列与列之间线 同时修改多行或者多列宽度或者高度 修改单行高度宽度 选中某一行拉取指定高…

三维直方图

三维直方图更直观,借助matlab的bar3,可以绘制三维直方图。 clc; clearvars; cimread(lena.jpg); width 0.8; %默认值是0.8,根据需要修改。 % hbar3(c,width,r); hbar3(c); set(h,EdgeColor,r) % set(h,facecolor,b) % set(h(1),facecolor…

LeetCode150道面试经典题--判断子序列(简单)

1.题目 给定字符串 s 和 t ,判断 s 是否为 t 的子序列。 字符串的一个子序列是原始字符串删除一些(也可以不删除)字符而不改变剩余字符相对位置形成的新字符串。(例如,"ace"是"abcde"的一个子序…

Android布局【TableLayout】

文章目录 说明常见属性子控件设置属性 项目结构主要代码 说明 TableLayout也称为表格布局 常见属性 android:collapseColumns:设置需要被隐藏的列的序列号,从0开始android:stretchColumns:设置允许被拉伸的列的列序号,从0开始&…

自从学了C++之后,小雅兰就有对象了!!!(类与对象)(中)——“C++”

各位CSDN的uu们好呀,今天是小雅兰来到CSDN创作的第256天啦,是一个极具纪念意义的日子,在这个神圣的日子里,也不影响小雅兰继续创作博客!!!下面,让我们进入西嘎嘎类和对象的世界吧&am…

java面试强基(16)

目录 clone方法的保护机制 Java中由SubString方法是否会引起内存泄漏? Java中提供了哪两种用于多态的机制? 程序计数器(线程私有) 如何判断对象是否是垃圾? clone方法的保护机制 clone0方法的保护机制在Object中是被声明为 protected的。以User…

数字化车间mes生产执行管理系统

数字化车间mes是一款基于B/S结构的生产执行管理系统,主要目的是为中小企业提供了高效率、低成本、通用性强的一个MES系统解决方案,能够实时监控当前完成进度。 功能简介: 生产管理 大屏展示:可以从大屏展示页面看到任工序…

Redis专题-队列

Redis专题-队列 首先,想一想 Redis 适合做消息队列吗? 1、消息队列的消息存取需求是什么?redis中的解决方案是什么? 无非就是下面这几点: 0、数据可以顺序读取 1、支持阻塞等待拉取消息 2、支持发布/订阅模式 3、重…

Java自学网站推荐,专业教学快速提升

Java自学网站可以是学习Java的有用资源之一。它们通常提供了丰富的教学材料、在线课程、编程练习和实例项目,帮助初学者系统地学习Java编程语言和相关技术。 动力节点是一家专业的Java培训机构,他们提供在线视频学习平台,你可以参考他们的官方…

Deep Learning With Pytorch - 最基本的感知机、贯序模型/分类、拟合

文章目录 如何利用pytorch创建一个简单的网络模型?Step1. 感知机,多层感知机(MLP)的基本结构Step2. 超平面 ω T ⋅ x b 0 \omega^{T}xb0 ωT⋅xb0 or ω T ⋅ x b \omega^{T}xb ωT⋅xb感知机函数 Step3. 利用感知机进行决策…

Postman 的简单使用

什么是Postman 在程序开发中用于调试网络程序或者跟踪网页请求。可以对网页进行简单的基本信息调试。Postman最早是作用chrome浏览器插件存在的,但是2018年初Chrome停止对Chrome应用程序的支持。所以现在Postman提供了独立的安装包,不再依赖于Chrome浏览…

菜单和内容滚动的联动原理及代码

之前写代码有个需求:左侧是一个菜单,右边是内容,点击左侧菜单右边内容滚动到对应位置,右边内容滚动到某位置时,左侧菜单也会选中对应的菜单项。UI如下:这是大多网站的移动端都会有的需求。 解决方案一&…

2023最新版本Activiti7系列-源码篇-初始化过程

源码分析 1.设计模式 1.1 命令模式 https://dpb-bobokaoya-sm.blog.csdn.net/article/details/89115420 1.2 责任链模式 https://dpb-bobokaoya-sm.blog.csdn.net/article/details/89077040 2.初始化过程 2.1 入口代码 我们在SpringBoot项目中来看Activiti7的源码。首先要…

机器学习:特征工程之特征预处理

目录 特征预处理 1、简述 2、内容 3、归一化 3.1、鲁棒性 3.2、存在的问题 4、标准化 ⭐所属专栏:人工智能 文中提到的代码如有需要可以私信我发给你😊 特征预处理 1、简述 什么是特征预处理:scikit-learn的解释: provide…

希尔排序【Java算法】

文章目录 1. 概念2. 思路3. 代码实现 1. 概念 希尔排序也是一种插入排序,它是简单插入排序经过改进之后的一个更高效的版本,也称为缩小增量排序。希尔排序在数组中采用跳跃式分组的策略,通过某个增量将数组元素划分为若干组,然后分…