“数据分析师”岗位分析
由于想从事数据分析师方面的工作,而做这个分析
第一可以拿来实际操作一下数据分析的技能,熟悉一下近段时间学习的工具
第二可以用数据的方式来了解一下数据分析师这个职位在成都的大体情况
所以做了这个分析。
一. 数据获取
我用八爪鱼爬取了智联招聘的数据,设置的搜索关键词是“数据分析”,限定地区为成都,但是我的电脑爬取速度极慢,所以用了一个小时爬取了400条成都的数据分析师岗位的数据。原始数据如下:
二. 数据清洗
拿到数据后有一些问题:
第一后面的抓取时间和网页地址在我的分析中并不需要,所以为了看着没有这么麻烦,我直接把后面两项删掉了。当然我保留了原始数据。
第二是公司行业的问题,有一些公司填了许多行业,比如“零售/批发/互网”“咨询服务,证券”等等。为了在数据透视表中方便,我们只保留最主要的行业信心。这里我进行了两个操作,
首先我对带有”/”符号的单元格进行了处理,用了如下函数=IF(ISNUMBER(FIND("/",A1)),LEFT(A1,FIND("/",A1,1)-1),A1),具体思路是判断单元格里是否有”/”如果有,就输出/之前的字符串,如果没有就保留原来的字符串
然后我对带有”,”的字符串进行了同样的操作,最后处理数据如下:
第三是薪资问题,仔细观察薪资,会发现里面的薪资是用上下限的形式来表示的,我们把上限和下限分开(分开的办法是用left和mid函数)再分别对下限和上限进行处理,处理时发现数字的表现形式也各不相同,有“千”有“万”有小数点,我在这个地方困惑了很久,最先我用查询和替换的方式,把万替换成4个0,把千替换成3个0,它的问题是如果是在小数点后面,有几个0都没用。后来我想去除掉万字,然后把数据乘上10000,但是其他数字怎么办呢?怎么能一次性解决一列数据呢?最后把逻辑写清楚,同样用到了IF和ISNUMBER和FIND函数,判断是否有万,有就去除掉万乘10000,没有就判断是否有千,有就去除掉千,并*1000,如果没有万也没有千,就输出原来的数字。具体函数为:
=IF(ISNUMBER(FIND万",G6,1)),LEFT(G6,FIND(“万”,G6,1)-1)*10000,IF(ISNUMBER(FIND(“千”,G6,1)),LEFT(G6,FIND(“千”,G6,1)-1)*1000,G6))
操作时要改掉里面指代具体单元格的符号。
之后处理“面议”的工资问题,我用的是用平均值进行填充,然后发现岗位里有实习生岗位,工资在1500-2000元,对其进行删除,然后对各个具体工资进行了区间段划分,以便于表示,整理后的数据如下:
三. 数据分析与可视化
数据分析一般可以有三个大类的方式对其进行分析加工,第一层是多维度分析,第二是统计学描述,第三是机器学习进行分类和预测。对此案例我先用第一二层来分析,机器学习用其他案例来上手吧。
1.我们来看看薪资分布情况,从分布情况看来,数据分析师的薪水下限主要集中在5000-8000这个区域附近,而薪水上限主要集中在8000-12000这个区域附近。另外薪水上限中有30%处在12000-20000领域,由此可见数据分析师岗位具有一定的发展空间和潜力。
薪资下限分布图
薪资上限分布图
由于我要找工作,所以实际上我更关心的是下限区间,看看学历限制对于薪资下限有什么影响。通过以下图例我们可以看见大专学历下限薪资集中在0-5000,是一个几何分布,本科学历集中在5000-8000附近,而要求硕士学历的公司较少,并总体都处在6000以上,且开出12000以上工资的也有5家公司。
学历要求比例
学历对薪资分布影响箱体图
学历对薪资分布影响图
2.看完了薪资分布,我们再看看工作经验要求的分布,以及他们对薪资有什么影响。近几年由于互联网大数据的原因,数据分析需求逐渐增多,数据分析师是一个朝阳岗位,大多数公司要求的年限是集中在1-3年和3-5年内,也有30%对工作经验没那么看重。对于平均薪资,依据工作年限升高,但是对于大于10年的人就降低了,可能的原因有两个,第一是公司招大于10年的人一般不会通过招聘网站,而是通过业内渠道,第二是大于十年的人公司一般发放的职位会是数据主管等中高级职务。
经验需求图
经验对薪水影响图
3.我们再看看招聘公司所在行业情况,由下图可知,互联网是需求最多的行业,其次是计算机软件行业,等等。从行业薪资下限来看,游戏行业给得最高为11200,计算机软件其次为10074,需求最多的互联网公司为6928,计算机软件需求挺多,工资也开得挺高,是一个不错的选择。
行业需求图
行业薪资图
4.我想看看招聘需求里机器学习的信息,我正在学习机器学习但还没能掌握,所以我对要求含有机器学习的岗位进行了一个薪资分析,可以看见8000-12000底薪的最多17个,12000-20000这个阶段的也有13个,所以向着技术前进吧。另外我之前做了一个词云图,正好可以用在职业描述这里,看看能有什么有趣的事情发生。
机器学习招聘薪资图
招聘信息词云
我处理了一些“数据”“岗位”等常见又无意义词,词云显示较多的就是“学历”“沟通”“逻辑思维”等词语,这些词语无法很好地显示技能需求,所以我做了个技能需求的单独统计。SQL要求最多,EXCEL其次,R第三,PYTHON第四。
技能要求图
5.维度分析结束,我们再用统计学的方法分析一下数据。看来工资符合一个右偏态分布,高工资的少,大多数工资下限集中在5000-6000的档位,中位数在6000。标准差3600说明85%的薪资都集中在离均值1个标准差之内,也就是3400-10600之间。
薪资下限总体分布情况图
四.结论
(1)成都的数据分析师薪资下限集中在6000左右,工作3-5年薪资在9200左右,这是下限数据,上限薪资的平均值为14313,389个统计岗位里有3-5年需求83个占比21%,所以总体来看,职业发展空间充足;
(2)互联网行业最需要数据分析师,游戏行业给的薪资最高,计算机行业其次,
(3)会机器学习数据挖掘的薪资普遍更高,
(4)数据分析师由于近几年新技术大数据的崛起,所以对新人还比较友好,招聘工作经验1-3年的占比36.8%,SQL,EXCEL是必须技能,逻辑思维是必要条件,另外这个工作一般有双休,至少工作描述是这样。