数据分析师岗位 分析可视化

目录

前言

一、导入模块

二、数据处理与分析

1.读取数据

2.查看数据表格描述

3.处理重复值

4.处理缺失值

5.提取地区信息 

6.提取经验信息

7.提取薪资信息

三、Pyecharts数据可视化

1.每个地区的招聘数量 

2.平均工资最高的地区 

3.经验学历需求图

4.招聘公司所在领域



前言

本文基于某招聘平台的数据分析师岗位招聘信息,首先利用pandas对数据进行处理与分析,然后利用pyecharts对各地区的招聘数量、平均工资、经验学历需求和招聘公司所在领域进行可视化的制图。



一、导入模块

import numpy as np
import pandas as pd
from pyecharts.charts import *
from pyecharts import options as opts
from pyecharts.globals import ThemeTypefrom IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = 'all'


二、数据处理与分析


1.读取数据

df = pd.read_csv('xx直聘 数据分析师岗位 分析可视化/xx直聘数据分析师.csv')
df.head()


2.查看数据表格描述

df.info() #查看整体性描述

df.describe()

 在这里发现count“福利”的后面几行是不满300的,说明数据缺失,要对缺失值进行处理。

3.处理重复值

df.duplicated().sum() #查看重复值

表面存在3处重复值。下面将重复值删除。

df.drop_duplicates(inplace = True) #删除重复值

4.处理缺失值

df.isnull().sum() #查看空值

df[df['福利'].isnull()] #查看“福利”空值所属信息
df['福利'].fillna('无', inplace=True) #用“无”填充福利列空值

“福利”列空值有26个,查看数值为空的列,用“无”将其填充。

df.rename(columns={'tags1':'涉及1','tags2':'涉及2','tags3':'涉及3','tags4':'涉及4','tags5':'涉及5','tags6':'涉及6'},inplace=True) #选择性重命名列名
df

df.fillna('未知',inplace=True) #用“未知”填充空值
df

5.提取地区信息 

df['地区'] = df['标题'].apply(lambda x:x.split('·')[0]) #获取地区
df['地区'].unique()

6.提取经验信息

df['经验'].unique()

查看“经验”列,数据多且杂,对数据重命名分类,其中有一条异常数据,将其改为“经验不限”。

df['经验'].replace('在校/应届本科','经验不限本科', inplace=True) #重命名经验
df['经验'].replace('5天/周2个月本科','经验不限本科', inplace=True)
df['经验'].replace('经验不限学历不限','经验不限大专', inplace=True)
df['经验'].replace('5天/周6个月大专','经验不限大专', inplace=True)
df['经验'].replace('3天/周12个月本科','经验不限本科', inplace=True)
df['经验'].replace('3天/周3个月硕士','经验不限硕士', inplace=True)
df['经验'].replace('4天/周6个月硕士','经验不限硕士', inplace=True)
df['经验'].replace('3-5年学历不限','经验不限大专', inplace=True)
df['经验'].replace('5-10年大专','经验不限大专', inplace=True)
df['经验'].replace('3-5年大专','经验不限大专', inplace=True)
df['经验'].replace('5天/周6个月本科','经验不限本科', inplace=True)
df['经验'].replace('5天/周6个月本科','经验不限本科', inplace=True)
df['经验'].replace('                                                                                                                                                                                                                                                                    ','经验不限本科', inplace=True)
df['经验'].unique()

7.提取薪资信息

df['薪资'].unique()

df['m_max'] = df['薪资'].str.extract('(\d+)') #提取出最低薪资
df['m_min'] = df['薪资'].str.extract('(\d+)K') #提取出最高薪资
df['m_max'] = df['m_max'].apply('float64') #转换数据类型
df['m_min'] = df['m_min'].apply('float64')
df['平均薪资'] = (df['m_max']+df['m_min'])/2df.head()

 

三、Pyecharts数据可视化

1.每个地区的招聘数量 

#每个地区的招聘数量
dq = df.groupby('地区')['地区'].count()
dq_index = dq.index.tolist()
dq_value = dq.values.tolist()bar1 = (Bar(init_opts=opts.InitOpts(width='800px',height='400px',theme=ThemeType.MACARONS)).add_xaxis(dq_index).add_yaxis('', dq_value, category_gap="50%").set_global_opts(title_opts=opts.TitleOpts(title="每个地区的招聘数量"),xaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(rotate=-50)),visualmap_opts=opts.VisualMapOpts(max_=80), #彩色块datazoom_opts=opts.DataZoomOpts(), #拉动条形轴)
)bar1.render_notebook()

反映每个地区招聘数量的条形图绘制完成,颜色的深浅代表了照片数量的多少,同时可以通过拉动条形轴来选择地区的范围。

2.平均工资最高的地区 

salary_average = df.groupby('地区')['平均薪资'].mean()
salary_average  = salary_average.sort_values(ascending=False)[:10] #找出平均薪资最高的十个地区
salary_average

利用.sort_values()函数对各地区平均工资进行降序排列,找出平均工资最高的十个地区。

#平均薪资保留两位小数
s = []
for i in salary_average.values:s.append(round(i, 2))bar2 = (Bar(init_opts=opts.InitOpts(width='800px', height='400px', theme=ThemeType.MACARONS)).add_xaxis(salary_average.index.tolist()).add_yaxis('', s, category_gap="50%").set_global_opts(title_opts=opts.TitleOpts(title="平均工资最高的地区"),xaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(rotate=-40)),yaxis_opts=opts.AxisOpts(name='K'),visualmap_opts=opts.VisualMapOpts(max_=30))
)bar2.render_notebook()

由图可知,数据分析师岗位平均工资最高的十个地区从高到低分别为北京、上海、杭州、南京、深圳、汕尾、佛山、云浮、湖州和苏州。

3.经验学历需求图

jingyan = df.groupby('经验')['标题'].count()
jingyan

 

 首先对经验进行分组,获取数据分析师岗位对经验学历的需求信息。

#经验学历需求图
pair_1 = [(i, int(j)) for i, j in zip(jingyan.index,jingyan.values)]pie = (Pie(init_opts=opts.InitOpts(theme=ThemeType.MACARONS,width='1000px',height='600px'))    .add('', pair_1, radius=['40%', '70%']).set_series_opts(label_opts=opts.LabelOpts(formatter="{b}:{d}%")).set_global_opts(title_opts=opts.TitleOpts(title="经验学历需求图", pos_left='center', pos_top='center',title_textstyle_opts=opts.TextStyleOpts(color='black', font_size=20, font_weight='bold')))
)pie.render_notebook() 

 由图可知,大部分数据分析师的岗位需要有一定的工作经验,并且数据分析师的岗位对学历的要求大多为本科及以上的学历。

4.招聘公司所在领域

#招聘公司所在领域
gongsi = df.groupby('公司领域')['标题'].count()pie1 = (Pie(init_opts=opts.InitOpts(width='1000px',height='600px',theme=ThemeType.MACARONS)).add("",[list(z) for z in zip(gongsi.index.tolist(), gongsi.values.tolist())],radius=["20%", "80%"],center=["45%", "65%"],rosetype="radius",label_opts=opts.LabelOpts(is_show=False),).set_global_opts(title_opts=opts.TitleOpts(title="招聘公司所在领域", pos_top="35%", pos_left="1%"))
)pie1.render_notebook()

 由图可知,数据分析师的岗位需求覆盖各个行业和领域,其中对数据分析师岗位需求最大的四个领域分别为互联网、电子商务、计算机软件和移动互联网。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/62420.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

文心千帆与文心一言API的使用

我在今年三月份左右申请了百度文心一言的测试,不久就通过了申请,体验了一段时间,感觉很棒,但是我更希望百度能早一点开放文心一言的API,不用在线去使用。 在7月19日那天,百度智能云给我打电话,问…

噫吁嚱!文言文亦能编程!此诚年度最骚语言也

栗子 晓查 发自 海边边 量子位 报道 | 公众号 QbitAI 同学,你可知如何用文言文输出“Hello World”? 请君睁圆双眼注视于此: △ 右边一顿输出 吾有一言。曰「「問天地好在。」」。書之。 却为何输出了三遍? 只因有for循环&#x…

60句高逼格的文言文,不收藏绝对是你的损失!

还记得前段时间火极一时的 “看到……应该想到” 系列吗? 由此可见国学早已渗透到生活的方方面面,关键时候还能映衬出你的儒(liao)雅(mei)高(zhuang)深(bi)。…

妙哉!那个用文言文编程的小哥,竟从28万行唐诗中找出了对称矩阵

梦晨 萧箫 发自 凹非寺 量子位 报道 | 公众号 QbitAI 你能看出来,这首诗妙在哪里吗? 其实,横着读是一首诗,竖着读还是这首诗! 而且,这首诗可不是乱编的,其中的诗句都来自《全唐诗》,…

文心一言 VS 讯飞星火 VS chatgpt (64)-- 算法导论6.5 3题

文心一言 VS 讯飞星火 VS chatgpt (64)-- 算法导论6.5 3题 三、要求用最小堆实现最小优先队列,请写出 HEAP-MINIMUM、HEAP-EXTRACT-MIN、HEAP DECREASE-KEY 和 MIN-HEAP-INSERT 的伪代码。 文心一言: 以下是使用最小堆实现最小…

chatgpt赋能Python-mac系统的python

在Mac系统上运行Python:一个简介 介绍 Python是一种流行的、易于学习的编程语言,被广泛用于各种用途,从数据分析到机器学习。如果您是Mac用户,那么您已经安装了Python,因为它是系统的一部分。本文将介绍如何在Mac系统…

微软 Copilot “杀疯了”,太刺激了...

1 刺激 这段时间真是太刺激了。 就在最近,微软宣布了 Copilots for Windows 11 以及其他一系列产品。作为AI助手,Windows Copilot将直接集成到Windows 11中,在所有应用和程序中都可使用,就像我们在Edge、Office程序和GitHub中看到…

GPT-4来了,计算机视觉科研,何去何从?

点击下方卡片,关注“CVer”公众号 AI/CV重磅干货,第一时间送达 点击进入—>【计算机视觉】微信技术交流群 作者:Mike Shou |(已授权转载)编辑:CVer https://zhuanlan.zhihu.com/p/616966879 最近上课被…

【chatGpt】关于websocket连接中对未授权的捕捉问题

目录 问题 有效提问 有效的细节提问 问题 一路上,通过简单的error进行判断弹出授权,会有很多乱弹的现象: (1)链路正常切换会断 (2)服务器没有启动会连接不上 (3)没…

Vscode 用MarkDown画流程图

效果图 start>start: 开始 input>inputoutput: 输入 operation>operation: 操作 condition>condition: 操作出错? output>inputoutput: 输出 error>operation: 请重新输入 end>end: 结束start->input input->operation operation->co…

chatgpt赋能python:Python画图设置背景颜色

Python画图设置背景颜色 在Python中使用Matplotlib和Seaborn等库来生成数据可视化图表非常方便。但是,这些图表默认使用白色背景。有时,我们需要在制作图表时更改背景颜色以匹配我们的主题或品牌标识。本文将介绍如何在Matplotlib和Seaborn中设置不同的…

chatgpt赋能Python-python3如何画图

Python3如何画图? Python是一种高级编程语言,它有着多种用途,包括数据分析和可视化。Python3是Python的最新版本,它具有更好的性能和易用性。在这篇文章中,我们将介绍如何使用Python3来画图,并探讨其优势和…

chatgpt赋能python:Python画图坐标轴大小

Python画图坐标轴大小 Python是一种广泛使用的编程语言,它在科学计算和可视化方面得到了广泛的应用。在可视化中,坐标轴的大小和比例对于展现数据的真实性和清晰性至关重要。在本文中,我们将介绍如何使用Python画图坐标轴大小,并…

“烧钱”的大模型:初探成本拆解与推理优化方法

编者按:大模型的成本问题一直以来是大家重点关注的问题,本文重点讨论了训练大型语言模型(LLMs)需要的成本,并简要介绍什么是LLM以及一些用于优化大模型推理表现的技术。 虽然很难准确预测LLMs未来会怎么发展&#xff0…

Spring Cloud 优惠最后 1 天!

大家好,我是栈长。 关注了一段时间公众号的小伙伴都知道,栈长的 Spring Cloud 微服务课程每月都会给小伙伴搞一波活动。 61活动来了,很多小伙伴都在等 61 的活动,这次活动,福利全新升级,千万不要错过&#…

微信公众号文章是否违规怎么检测?

在写文章的时候,会遇到以下3种情况: 1、你所编辑的图文消息可能含有敏感内容,你可以继续保存或发布该图文消息(发布等待时长约3-4小时),若保存或发布后,经核实含有敏感内容的,将可能…

如何发现并分析APP个人信息收集是否违规?

移动互联网的发展以及智能终端的兴起,手机已然成为了我们生活中不可或缺的“日用品”,各种手机APP开启霸屏模式,例如常见的支付APP、聊天APP、金融APP、交通APP等,这些APP虽然给我们生活带来了便利,但是其收集的用户信…

新闻稿的制作流程:从确定新闻稿目的到将其分发给媒体

对于任何希望向媒体和公众传达具有新闻价值的信息的组织来说,新闻稿都是必不可少的工具。精心制作的新闻稿可以帮助您宣传您的业务、产品或服务,并可以产生有价值的媒体报道。在本文中,我们将指导您完成新闻稿的制作过程,从确定新…

如何写新闻稿?写好新闻稿的技巧与步骤

新闻稿是传递新闻事件和信息的重要手段,是传媒工作中不可或缺的一部分。写好一篇新闻稿可以让受众了解更多信息,进一步提高他们的关注度。以下是一些写好新闻稿的技巧和步骤,帮助你有效地传达新闻。 1、确定新闻的核心信息 在开始写新闻稿之前…

怎么向新闻媒体投稿?新闻稿投稿渠道哪个比较好

在互联网众多媒体网站中,各大小中新闻媒体网站都拥有一定的权威性和知名度,作为网 媒,这些新闻网站相比纸类报刊更容易被大众网民接触,甚至有不少人还想联系网站将新闻或 者软文投放上去。当然了,如果是个人联系媒体…