1.项目背景
马上就要出去实习了,想对广州各个区数据分析岗位做一个了解,看看自己成为一名数据分析师还需要学习哪些技能还有了解广州各区数据分析岗位薪资如何。
2.研究问题
(1)广州哪个区的数据分析岗位招的最多?
(2)广州各个区的薪资最低是多少?
(3)公司招人需要应聘者具备哪些技能?
(4)公司招人他们的学历和工作经验是怎样的?
目录
一. 数据采集
二. 数据清理
三. 数据可视化及分析
一. 数据采集
这里我们通过采集器对boss直聘网进行数据的采集
首先,我们在网上打开boss直聘,在里面搜索数据分析,然后复制网址到采集器里。
爬出我们想要的数据后我们点击“开始采集”即可,这里总共采集了三百条数据,对应得上网页里的数据(网页中boss直聘里每页有30条,一共10页)
数据采集完成后我们把数据导出即可。
我们看看导出后的数据,在这里我们把不需要的字段进行删除,比如标题链接,缩略图。然后再将列名称进行修改。
修改完之后是这样的,完成这一步后我们就可以进行数据清洗了。
二. 数据清洗
这里我用到的工具是tableau prep builder
打开tableau prep builder,然后点击“连接到数据”,选择Microsoft Excel,导入我们的数据。
导入数据后,按如图的步骤依次点击
我们先对薪资范围进行清洗,我们可以看到【薪资范围】里的数据是不统一的,这里我们要把它们进行拆分然后创建一个计算字段来统一它们的格式,我们把它们统一为按月发放多少K。
第一步:拆分
我们把后面的13薪,15薪,16薪什么的单独拆分出来。
选中薪资范围,右击选择“拆分值”选里面的自定义拆分。
里面的内容按照如图,点击“拆分即可”
拆分完以后是这样的,这里我们把他们改一下名方便后续操作。
然后我们再吧把【薪资范围待清洗】里面的数据再进行拆分,把/后面的字拆开,操作如下:
然后得到下面两个字段,这里圈起来的部分我们把它命名为月,双击即可命名,因为除了按天发放工资那么剩下的就是按月发放了。然后再重新命名这两个字段,分别为【薪资范围待清洗2】和【发放频率】。
接下来我们再把【薪资范围待清洗2】里面的薪资单位取出来,点击创建计算字段,把计算1改为“薪资单位”,然后在里面写RIGHT([薪资范围待清洗2],1),代码的意思是得到【薪资范围待清洗】右边的第一个字。
拆分完后是这样的,然后我们再把【薪资范围待清洗2】进行拆分,这次我们按-来进行拆分,拆分完后把新拆出的两个字段分别命名为【薪资下限待清洗】和【薪资上限待清洗】。
搞完之后 我们点击【薪资上限待清洗】旁边的这三个小点,选中“清理”点击移除字母。
这样我们就把【薪资上限待清洗】里面的字母和文字清理干净了,然后我们就可以创建计算字段来处理薪资下限和上限的问题,由前面的数据我们知道,有些公司它的薪资是按每小时多少元发的有些则是按月发的,我们需要做的是把它们统一改为按月发多少K。
在此之前我们要把【薪资下限待清洗】和【薪资上限待清洗】转为整数,点击左上角的“Abc”,再点击“数字(整数)”即可
创建计算字段,名为薪资下限,里面的代码为:
IF [发放频率] = "月" AND [薪资单位] = "K" THEN [薪资下限待清洗]
ELSEIF [发放频率] = "月" AND [薪资单位] = "元" THEN [薪资下限待清洗] / 1000
ELSEIF [发放频率] = "天" AND [薪资单位] = "K" THEN [薪资下限待清洗] * 30
ELSEIF [发放频率] = "天" AND [薪资单位] = "元" THEN [薪资下限待清洗] *30 / 1000
ELSE -1000000000 END
代码的含义是:
- 如果“发放频率”为“月”,且“薪资单位”为“K”(千元),则将“薪资下限待清洗”的值直接作为结果输出。
- 如果“发放频率”为“月”,且“薪资单位”为“元”,则将“薪资下限待清洗”除以1000,将单位转换为千元后输出。
- 如果“发放频率”为“天”,且“薪资单位”为“K”(千元),则将“薪资下限待清洗”乘以30,将发放周期转换为月后输出。
- 如果“发放频率”为“天”,且“薪资单位”为“元”,则先将“薪资下限待清洗”乘以30,再将结果除以1000,将单位转换为千元后输出。
- 如果以上条件均不满足,则输出-1000000000
代码写好之后点击保存即可,然后再创建一个计算字段,名为【薪资上限】里面的代码也是差不多的,不过要修改一下,把里面的[薪资下限待清洗]改为[薪资上限待清洗]。
搞好之后就是这样
我们来确认一下,第一行数据是150-250/元每天,那么150*30就是4.5K的薪资下限,上限就是250*30也就是7.5K,对应得上我们刚刚创建的计算字段的结果,完全没毛病。
然后我们再把之前拆分出来没用的删除,只留下下面的字段,然后再把这些字段排到你想要的位置。
接下来,我们再把【经验要求】和【学历要求】里面的内容进行分组,如图,按住“Ctrl”选中下面五个(选完后就可以松开Ctrl了),然后在“经验不限”这里右键点击“将值分组”即可,【学历要求】也是一样的操作。
分完之后就是这样的。
然后我们看到【融资情况】和【公司规模】,这里我们看到【公司规模】里的null值都落在了【融资情况】里,这里我们要做一个字段偏移。
创建计算字段,如下,点击保存。
这样在【公司规模新】里就没用空值了,然后把【公司规模】删除即可。
到这里,数据的清洗就完成了,将清洗后的数据导出即可。操作如下:
在输出类型选择我们要的xlsx文件
然后在工作表里填上sheet1,并点击创建新工作表
点击浏览,把你最后输出的文件放到你想要的位置上即可,最后点击“运行流程”就可以了.
三. 数据可视化及分析
这里我用的是tableau进行数据可视化的,作图的过程就不细说了,不会的可以看b站上面tableau的教程非常简单。
1.
分析:我们可以明确地看到在广州各个区薪资上限平均值最高的是荔湾区,其次是海珠区,而薪资下限平均值最高的是海珠区,其次是荔湾区。这里很多人会问为什么薪资下限和上限平均值最高不是天河区,原因是天河区招聘的人数太多的,工资高的低的都有,所以平均薪资就没那么多了。
2.
分析:我们可以知道在广州,数据分析这个岗位70%要的都是本科生,其次是大专16.7%,硕士5.0%。
3.
分析:我们知道,广州的天河区对数据分析这个岗位的需求是最大的,达到37.4%,毕竟天河区是广州最繁华的社区了,所以我们投简历的时候可以多往天河区投。
4.
分析:我们可以知道,数据分析岗位你得具备sql,excel,python等技术才有优势,这是绝大数公司招聘条件,目前想成为数据分析师但还没方向的同学可以参考。
5.
分析:可以看到,在各个区里经验要求在1-3年,3-5年有超过一半以上。