编 辑:彭文华
来 源:大数据架构师
彭友们好,我是老彭呀。前两天网上到处都在传中国的失业率达到了惊人的18%!!!我都蒙了呀!这数据这么惊人了吗?
吓得我连夜到处查数据来源,一说是“国家”发布的,这一看就是和稀泥的,数据发布肯定有一个部门,不会是“国家”发的。这就是数据的责任部门存在的意义。
另一说,是国家统计局发布的,而且是4月的数据。这倒是有鼻子有眼的。我就仔细去看了一下。
数据来源
一般来说,这类数据都是国家统计局发布的。我们百度一下国家统计局,第一个链接就是:
打开之后长这样:
看见上面的“数据查询”没有?点进去。嗯,会出现一个警告,咱忽略,直接继续就行,这个就不用吐槽了哈~~~
进去之后是这样:
是的,点击“月度数据”默认打开的是CPI(居民价格指数)指标的结果。果然,2022年4月的数据已经更新了。
这里是一个非常好的数据集产品示例。非常规范,极具参考价值。以CPI为例:
最左侧的是指标体系,呈树状目录结构,按照指标分类标准,将上万个指标进行分类归集;
右上是工具栏,做过报表的都知道是咋回事,这个就略过了。
右中是报表,就是具体的数据。这个做过excel的就能看明白是啥意思。
右下是数据的注释,一般会说清楚指标的前因后果、相互之间的关系、统计口径等。
失业率
我们今天的话题是失业率,直接到上面的搜索栏输入“失业率”查询一下:
失业率有两种统计方法:一类是登记失业率,一类是调查失业率。
国外大多用的是调查失业率,意思就是上街随机找人问:“你失业没有”。这种方法主动性较强,跟实际情况比较接近。
我国之前一直用的是登记统计的方法,这种方法较为被动,只有去社保登记失业的人才会被统计上,因此比调查失业率普遍低一些。
这两年我们也开始用调查的方式统计失业率了,从结果上来看,的确比登记失业率要高一些,4月份的全国城镇调查失业率6.1%,但是也没高到18%这么离谱啊!
老彭挨个点开看了,数据在这里呢:
嗯,指标名字是“全国16-24岁人口城镇调查失业率(%),高达18.2%。传闻对上了,但又没全对。
从上表我们能看出来,00后小彭友是超勇的网上传闻00后整顿职场的段子真不是空穴来风呀~~
身为80后的我,为什么感觉被冒犯了宝宝心里苦,能向谁诉说?
00后一直这么勇吗?还是今年变勇了?老彭我把数据拉长到36个月。咱忽略左侧标签的不统一,自动的产品就是有些小问题。
绿线一直都很高,疫情前全国的调查失业率(橙色)才5%,全国16-24岁人口城镇调查失业率(绿色)就已经冲到10.5%!
在2021年底,00后失业率冲到了15%,今年3月冲到了16%,4月飙升至18.2%。勇,真的勇!
有那么一瞬间,老彭也有些激动了呀
正确理解数据
我知道会有彭友会站出来质疑数据的准确性,甚至抬出来各种数据造假的案例。
也会有人故意抛弃全局,拿出部分数据过度解读。之前老彭听到“全国失业率已经达到18%”就是典型。
还有人质疑调查数据、推算过程是否科学严谨。
但是,老彭想说,这些都不重要。
没必要洗地,老彭现在也推不出公式来,更没办法亲自问问全国14亿彭友们就业情况。但是我们至少可以做一件事情:
认真、科学、理性、精确地对待数据,不要过度解读,不要断章取义,不要随意联想,会出大事的
这让我想起来了《首席数据官管理手册》里专门有一张讲数据伦理,《DAMA 数据管理知识体系指南 DMBOK 2.0》里第2章就叫“数据处理伦理”。里面都谈到了对数据的正确态度。
但是这到处都是对数据的错误引用、肆意滥用,甚至是故意曲解。唉,道阻且长啊……
更多精彩:
老彭新书:《首席数据官管理手册》开始接受预订啦~~~
数据分类和标签有啥区别?
脉脉热帖:数仓真的是太无聊了...
西安一码通的事儿,咱帮不上忙,就别添乱了行么?
相比DCMM,DMBOK为什么没有数据标准?
排版 | 老彭
审校 | 老彭 主编 | 老彭