欢迎关注天善智能,我们是专注于商业智能BI,人工智能AI,大数据分析与挖掘领域的垂直社区,学习,问答、求职一站式搞定!
对商业智能BI、大数据分析挖掘、机器学习,python,R等数据领域感兴趣的同学加微信:tstoutiao,邀请你进入数据爱好者交流群,数据爱好者们都在这儿。
作者: 梁时,互联网数据分析师
个人公众号:两视两听
北京积分落户中标名单公示后,
网上很多从数据分析角度解读这份名单的文章,
看了几篇后,
我突发奇想,
问梁婷:
'你猜哪个星座落户的数量最多?'
她想都没想:
'天蝎'
'为啥?'
'因为天蝎的人比较容易成功'
光说无用,
data验证!
--数据准备--
原始数据是公示在首都之窗网站上的,
交互格式是JSON,通过更改URL参数,很容易就能得到数据了,
通过整理,最终得到的有效字段有:
隐去后四位的身份证号、落户积分、单位名称
(目前该名单公示时间已结束,如对原始数据感兴趣,可后台回复"落户"获取)
--特征分析--
1、星座分布
天蝎座落户人数最多,
但处女座落户更容易!
通过身份证号,可以获取到很多信息,
比如我们关心的星座,
通过统计,落户人员的星座比例如下图:
刚看到这个图时,
落户人数最多的还真是天蝎座!
难道真的是
'天蝎座的人比较容易成功'么?
梁婷可能是看出了我的疑惑,
开始给我解释起来:
“
据《引爆点》书中所讲,
天蝎座及其左右的人,
都出生在下半年,
由于我国的小学入学年龄的限制,
导致这部分人在同级生当中年岁偏大,
相较发育快那么一些,
所以也就容易成功
”
好吧,这也算是个解释。
但是,
不考虑总体的分布解释,
都是耍流氓,
于是,我就搜了下中国人口的星座分布,
当看到搜索结果的那一霎那,
如下是'城市数据团'出品的
中国人口星座比例分布:
可以看到,
就中国整体情况来看,
天蝎座的人数本来就是最多的,
所以积分落户的人中,
天蝎座的人数最多,
也不是很奇怪了。
而造成这个分布的原因,
也有一个有趣的猜想:
“
天蝎座宝宝的受孕时间,
大概是1-3月份,
恰好对应了农历的新年时期,
在家里亲戚各种催生娃的催促下,
”
以此为基础,
假设申请户口的比例与中国整体保持一致,
那么,再来看落户人员的星座分布:
(图中,柱形上方的数字=该星座在落户人员中的比例-该星座在整体中的比例)
如果从这个角度来看的话,
落户最强的应该是处女座,
比正常比例高了2.2个百分点,
敬佩的目光送给处女座!?
分析完星座,
还是意犹未尽,
那就看看哪个城市落户能力最强。
2、城市分布
环京贡献人口多,
各省省会人口更爱入京!
根据落户人所在的原籍城市,
绘制了热力图如下:
可以看到基本是符合以下规律的:
(一):
整体上,还是以胡焕庸线为界,
大部分人处在线的东南方,
(二):
另外,北京周边的城市,
贡献了更多的落户人口:
TOP5中,有4个城市位于津冀,
分省份来看,
河北(894)也是落户人数第一大省。
(三):
观察热力图,
还可以发现,
有一些圆点很醒目,
位置大致都在省会上,
那是不是各个省的省会,
落户人员会更多呢?
来看一下统计数据:
除去港澳台以及直辖市,
还剩下27个省及自治区,
这其中有22个省份,
落户人口最多的城市都是省会,
仅有以下5个省落户人口最多的城市不是省会:
所以,是不是可以这样认为:
省会人往首都跑,
其他人往省会跑。
--后记--
以上,都是对现有结果的一种解读,
但我们更想了解的,
其实是从今年的落户积分分布上,
推测之后的落户难度,
以便对自己的重大决策提供指导,
比如:
'早几年买房,会积分的影响有多大'
'需要考虑买在郊区吗?'
因此,在下篇文章中,
将对个人积分建立增长模型,
好好聊聊,为了积分落户
我们要走对的几步路!
提前奉上文章目录:
各影响因素随时间的函数
影响因素权重对比
个人积分增长模型
如何稳步的积分落户
Python的爱好者社区历史文章大合集:
Python的爱好者社区历史文章列表(每周追加更新一次)
关注后在公众号内回复“ 课程 ”即可获取:
小编的转行入职数据科学(数据分析挖掘/机器学习方向)【最新免费】
小编的Python的入门免费视频课程!
小编的Python的快速上手matplotlib可视化库!
崔老师爬虫实战案例免费学习视频。
陈老师数据分析报告扩展制作免费学习视频。
玩转大数据分析!Spark2.X + Python精华实战课程免费学习视频。