泰尔指数案例分析

泰尔指数是一种衡量‘不平均’的指数,比如用于衡量‘贫富差异’,也或者衡量大气污染的水平是否一致,二氧化碳排放水平差异情况等。泰尔指数的数学原理是‘熵’,‘熵’是一种衡量数据‘有序性’的指标,当‘熵’值越大时,数据越无序,那么意味着‘不平均’情况越严重。

泰尔指数正式分析前需要了解两个基本的名词,如下:

结合具体的泰尔指数计算原理,其可分为四种类型的泰尔指数,分别是T指数、L指数、GE1指数和GE0指数,四种类型的指数在原理上稍有区别,但应用上均是对‘不平均’情况的衡量,其中T指数使用最多。比如研究我国贫富差距‘收入不均’问题,但是每个省的GDP或者人口基数并不一致,即计算泰尔指数的时候,如果某个省GDP更多,或者人口更多,那么其对于整体收不均的影响作用会更高。T指数正是基于GDP作为权重,GDP越大时该省对于整体泰尔指数的影响会越大;类似地,也可使用人口作为权重,当人口越多时,该省对于泰尔指数的影响会越大,L指数正是基于人口作为权重进行计算。基于上述原理,在计算T指数或L指数时,通常需要提供类似GDP和人口共两项数据。

如果提供的原始数在为人均GDP一项(没有GDP和人口两项数据),那么此时则需要使用GE1或GE0指数,其只需要提供人均GDP这样的1项数据进行计算,GE1和GE0是基于广义熵概念计算得到,二者区别在于广义熵时的alpha值,GE1时alpha值为1,GEO时alpha值为0,GE1和GE0指数使用相对较少。

除上述外,还需要理解的一个名词为Group项,计算泰尔指数时,很可能出现‘层次聚集’数据,比如中国包括31省,每个省包括很多个市,每个市包括很多个县,每个县还可包括很多个乡镇。带有此类聚集特征的数据,即具有Group项,比如省份、市、县均为Group项。当数据完全没有Group项时,比如直接31个省(共31行数据)的GDP和人口,计算泰尔指数,此时则称为普通泰尔指数。比如数据包括31个省,每个省比如有6个市,共计31*6=186行数据时(省-》市),此时具有1个Group项即省,此时称为一阶泰尔指数。比如数据包括31个省,每个省比如有6个市,每个市有10个县,那么此处有2个Group项(省-》市-》县),分别是省和市,省的层级最高即Group1,市的层级稍低为Group2,此时计算的泰尔指数称为二阶泰尔指数。

理论上还会有三阶泰尔指数、四阶泰尔指数等,实际情况中由于数据的可获取性及研究目的需要等,实际使用极少,通常情况下一阶泰尔指数较多。SPSSAU默认提供最多两个Group项即最多二阶泰尔指数,如果两个group项均不放入,那么为普通泰尔指数,如果放入1个Group项那么为一阶泰尔指数,如果放入2个Group项则为二阶泰尔指数。

与此同时,在计算泰尔指数时,很多时候需要对比不同年份数据情况,当数据中包括多个年份时,比如最近10年数据,且31个省,每省6个市,共计为10*31*6=1860行时,可将年份进行设置,系统会自动遍历计算出分别10年的泰尔指数。


泰尔指数案例

1 背景

当前有中国2012 ~ 2021共计10年各省的GDP数据、人口和人均GDP数据,将省分成七大区域(分别是华北、东北、华东、华中、华南、西南、西北),分析中国人均GDP收入的差异情况,对比各大区域的具体差异情况等,部分数据如下图所示:

明显地,数据中包括1个Group项即‘区域’,并且为10年,共计为310行数据,本案例为一阶泰尔指数,并且为10年分别进行计算对比。如果省份再继续往下细分为市,那么省就是另外一个Group即二阶泰尔指数。

2 理论

如果计算泰尔指数时,涉及到一阶或者二阶,即当提供的数据具有聚集性时,那么泰尔指数则会进行拆分为比如组内和组间指数。具体说明如下表格:

如果是普通泰尔指数,那么直接就只得到1个泰尔指数值。如果是一阶泰尔指数,比如本案例为‘区域-》省’这样的数结构时,泰尔指数可具体细分为组内TWR和组间TBR,比如本案例分为7个区域,那么7个区域之间的收不均则叫组间TBR,每个区域(比如华北区域)内各个省之间的差异则叫组内TWR。如果是二阶泰尔指数,比如‘区域-》省-》市’这样的数据结构,各个区域之间的差异称为‘组间TBR’,各个省之间的差异称为‘省间TBP’,以及各个省包括很多个市,比如浙江省包括10个市,那么此10个省之间的差异,则称为‘组内TWP’即省内差异情况。

3 操作

本例子中操作截图如下:

  • 泰尔指数类型选择最常用的T指数,T指数时要求提供GDP和人口共两项数据,以及本案例包括10年,因而将年份放入对应框中。
  • 本案例为一阶泰尔指数(区域-》省)结构,Group项为区域,因而将其放入Group1项中。需要提示的是,案例数据最细粒度单位为省,此处省并不Group项。

4 SPSSAU输出结果

泰尔指数模型输出泰尔指数分解和贡献值两类结果指标,并且以图形进行展示,说明如下:

当‘普通泰尔指数’即没有Group项时,仅展示1个泰尔指数值。如果是一阶或者二阶泰尔指数,则会涉及到泰尔指数分解,以及各Group项对应的泰尔指数,以及各Group项时贡献值情况。本案例数据为一阶泰尔指数,因而会输出泰尔指数分解结果,Group项时泰尔指数结果。

泰尔指数的理解较为简单,但其计算公式相对复杂,为更好地理解泰尔指数原理,下述以一阶泰尔指数的计算公式为便进行说明。

上述四个式子中,T表示整体泰尔系数,Ti表示第i个区域的泰尔系数,TWR表示组内泰尔系数即区域内部泰尔系数,TBR表示组间泰尔系数即区域之间泰尔系数。Ln表示取对数的意思,各个符号说明如下:

  • i: 区域的编号
  • j: 省的编号
  • Y:GDP加总
  • Yi: 某区域gdp
  • Yij:某区域某省gdp
  • N:人口加总
  • Ni: 某区域人口
  • Nij:某区域某省人口

5文字分析

本案例时泰尔指数分为TWR和TBR,TWR表示组内泰尔系数即各个区域内部的贫富差异(T是泰尔指数的简写,W是within即组内的简写,R是区域Region的简写),TBR表示组间泰尔系数即区域与区域之间的贫富差异情况(T是泰尔指数的简写,B是between即组间的简写,R是区域Region的简写)。整体上看,各个年份上,整体泰尔指数变化不大,意味着各年份对比来看,贫富差异并没有明显的变化,从2016年起泰尔系数稍有减少,意味着贫富差异现象整体上有着微弱的减少趋势。TWR和TBR对比上,TWR相对明显更高,意味着当前的贫富差异主要是体现在区域与区域之间,而区域内部的贫富差异相对较小。泰尔系数分解可见下图。

特别提示:

泰尔指数是基于熵值原理进行计算,泰尔系数的大小并无绝对意义,其只有相对大小意义,并不能说3就比0.1绝对更高,而应该站在同一对比水平上进行对比。

具体针对各个区域上看,整体对比七大区域的贫富差异情况可知,整体上看,华北地区的贫富差异明显最高,泰尔系数基本均在0.1或者以上,意味着华北地区当前的贫富差异现象相对明显,可能由于北京作为国家行政中心极强,但华北的基它地区,比如河北、山西、内蒙古等省市的收入明显更低导致。接着,华南和华东地区也有着较强的贫富差异现象,但比起华北来看还是较弱。西北地区和西南地区这两个地区贫富差异现象较弱,另外东北地区和华中地区的贫富现象相对最低,意味着该两个地区的人均收水平相对更加均衡。

除了分析各个区域的泰尔指数得到贫富差异情况外,还可分析各个区域对于整体泰尔指数的影响作用情况即贡献值分析。

上表格展示各个区域泰尔指数的贡献情况,本案例数据使用泰尔T指数,其基于GDP作为贡献值大小标准。因而当某区域的GDP越高时其对整体泰尔指数(即整体贫富差异)的作用力度越大。上表格和下图可以看到,整体上看,华东地区的贡献值相对最高,这是由华东地区包括浙江、江苏、山东等经济大省决定。而华中、华北、华南对于整体贫富差异的影响作用力度较高,西南地区次之,东北和西北这两个地区对于泰尔指数的作用力度相对最小。

6 剖析

泰尔指数分析涉及以下几个关键点,分别如下:

  • 特别注意正确的数据格式。比如是‘省-》市’数据,即最小粒度单位是市,那么有两列分别标识省和市,但省才是聚集性group。如果有多年数据,那么其仅仅是重复,行数成年份倍数增长而已。
  • 泰尔指数包括四种类型,T指数、L指数、GE1和GE0,T指数和L指数时,需要传入比如GDP和人口这两项数据,因为衡量不平均是由人均GDP决定,T指数计算贡献值时使用GDP这样的数据,L指数计算贡献值时使用L指数这样的数据,其中T指数使用最多。GE1和GE0这两个指数使用相对较少,其利用广义熵进行计算,而且其要求传入的数据为比如人均GDP这1个数据,GE1时贡献值是由group内样本个数及数据大小共同决定,GE0时贡献值是由group内样本个数决定。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/135489.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

184_Python 在 Excel 和 Power BI 绘制堆积瀑布图

184_Python 在 Excel 和 Power BI 绘制堆积瀑布图 一、背景 在 2023 年 8 月 22 日 微软 Excel 官方宣布:在 Excel 原生内置的支持了 Python。博客原文 笔者第一时间就更新到了 Excel 的预览版,通过了漫长等待分发,现在可以体验了&#xf…

Linux UDP编程流程

文章目录 UDP编程流程UDP协议无连接的特点UDP协议数据报的特点 UDP编程流程 UDP 提供的是无连接、不可靠的、数据报服务。服务器端和客户端没有什么本质上的区别。编程流程如下: socket()用来创建套接字,使用 udp 协议时,选择数据报服务 SOC…

扔掉你的开发板,跟我玩Mcore-全志h616

本文转载自WhyCan Forum(哇酷开发者社区): https://whycan.com/t_10024.html 作者leefei 这是一个1.69寸触摸小电视。使用全志H616芯片,板上硬件有mpu6050陀螺仪,USB转ttl调试串口,一个USB接口,WIFI&蓝牙&#x…

mysql 备份和还原 mysqldump

因window系统为例 在mysql安装目录中的bin目录下 cmd 备份 备份一个数据库 mysqldump -uroot -h hostname -p 数据库名 > 备份的文件名.sql 备份部分表 mysqldump -uroot -h hostname -p 数据库名 [表 [表2…]] > 备份的文件名.sql ## 多个表 空格隔开,中间…

jvm的调优工具

1. jps 查看进程信息 2. jstack 查看进程的线程 59560为进程id 产生了死锁就可以jstack查看了 详细用途可以看用途 3. jmap 如何使用dump文件看下 查看 4.jstat 空间占用和次数 5. jconsole可视化工具 各种使用情况,以及死锁检测 6. visualvm可视化工具…

用微服务平台框架,实现高效的流程化办公!

想要实现流程化办公,可以用什么样的软件平台实现?随着市场竞争越来越激烈,很多企业会采用低代码技术平台实现高效管理企业的内部资源,从而减少很多繁琐工作和时间,实现提质增效的目的。流辰信息助力大家采用微服务平台…

商业大厦为什么要烟感监控?一篇看懂

烟感监控在现代商业大厦的安全体系中扮演着至关重要的角色。随着城市化的不断发展和商业大厦的不断增多,建筑物内的火灾风险也相应增加。 因此,采取有效的烟感监控措施,以及建立快速响应火警的机制,对于保护人员生命安全和财产安全…

性能测试 —— Jmeter 常用三种定时器

1、同步定时器 位置:HTTP请求->定时器->Synchronizing Timer 当需要进行大量用户的并发测试时,为了让用户能真正的同时执行,添加同步定时器,用户阻塞线程,知道线程数达到预先配置的数值,才开始执行…

Navicat 连接数据库出现1251

原因: MySQL8.0以上版本的加密方式和MySQL5.0的不一样,所以Navicat连接MySQL会报错。 1251 - Client does not support authentication protocol requested by server; consider upgrading MysQl. cdient– 修改远程连接权限 % 可换为自己的电脑ip GRAN…

2023 Google 开发者大会 – 惊喜来袭

💗wei_shuo的个人主页 💫wei_shuo的学习社区 🌐Hello World ! 2023 Google 开发者大会 – 惊喜来袭 2023 Google 开发者大会面向开发者和科技爱好者展示最新产品和平台的年度盛会。今年Google大会为大家提供了丰富的学习资源&…

树和二叉树

1、树的定义2、树的基本术语3、二叉树的定义4、二叉树的性质和存储结构5、满二叉树、完全二叉树**完全二叉树的性质** 6、二叉树的存储顺序存储结构链式存储结构 7、遍历二叉树演示8、二叉树相关算法(1)遍历二叉树递归算法实现(2)…

mac电脑版矢量绘图推荐 Sketch for mac最新中文

Sketch软件特色 1、数字设计工具包 在Sketch中使用暗模式查找焦点。点亮灯光,失去分心,看着你的设计变得生动,让你专注于最重要的事情 - 你的工作。 2、为未来重新设计 Sketch 带来全新外观和更多。完全重新设计的界面使设计过程比以往更加…

人脸识别技术应用安全管理规定(试行)|企业采用人脸打卡方式,这4条规定值得关注

近日,为规范人脸识别技术应用,国家互联网信息办公室起草了,并向全社会公开征求意见。该规定一共列举了25条,企业如借助人脸识别技术采集考勤打卡数据,以下4条规定值得关注。 第四条 只有在具有特定的目的和充分的必要…

Python接口自动化测试post请求和get请求,获取请求返回值

引言 我们在做python接口自动化测试时,接口的请求方法有get,post等;get和post请求传参,和获取接口响应数据的方法; 请求接口为Post时,传参方法 我们在使用python中requests库做接口测试时,在做post接口测试…

notepad++配合正则表达式分组模式处理文本转化为sql语句

一、正则分组知识点补充 正则分组和捕获 ():用于分组和捕获子表达式。 大白话就是()匹配到的数据,通过美元符号加下标可以获取该数据,例如$1、$2, 下标从1开始。 下面的案例就采用该模式处理文本数据 二、使用正则的需求背景 有一份报表…

KPM算法

概念 KMP(Knuth–Morris–Pratt)算法是一种字符串匹配算法,用于在一个主文本字符串中查找一个模式字符串的出现位置。KMP算法通过利用模式字符串中的重复性,避免无意义的字符比较,从而提高效率。 KMP算法的核心思想是…

0.UML

1.图 1.1类图含义 第一层显示类的名称,如果是抽象类,则就用斜体显示。第二层是类的特性,通常就是字段和属性。第三层是类的操作,通常是方法或行为。注意前面的符号, ,表示public,-,表示private,#,表示protected。 1.2接口图 与类图的区别主要是顶端有<< interface >…

24v转5v稳压芯片-5A大电流输出ic

这款24V转5V5A汽车充电芯片具有以下特性和参数&#xff1a; - 宽输入电压范围&#xff1a;4.5V至36V - 最大输出电流&#xff1a;5.0A - 高达92%的转换效率 - 恒流/恒压模式控制 - 最大占空比100% - 可调输出电压 - 2%的输出电压精度 - 集成40mΩ高侧开关 - 集成18mΩ低侧开关 …

【Redis 多机服务的简单认识】

目录 主从同步 哨兵模式 集群服务 随着业务的不断发展&#xff0c;单机 Redis 的性能已经不能满⾜我们的需求了&#xff0c;此时我们需要将单机 Redis 扩展为多机服务&#xff0c;Redis 多机服务主要包含以下 3 个内容&#xff1a; Redis 主从同步Redis 哨兵模式Redis 集群…

Android高德地图截屏功能(可包含自定义控件)

一、不包含自定义控件 地图 SDK 支持对当前屏幕显示区域进行截屏&#xff0c;可以对地图、覆盖物&#xff08;包含信息窗口&#xff09;、Logo进行截取屏幕&#xff0c;这其中不包括地图控件、Toast窗口。 详细示例如下&#xff1a; // 对地图进行截屏aMap!!.getMapScreenSho…