Boss直聘招聘数据分析岗位小分析

        嗨喽! 大家好,我是“流水不争先,争得滔滔不绝”的翀,18双非本科生一枚,正在努力!欢迎大家来交流学习,一起学习数据分析,希望我们一起好好学习,天天向上,目前是小社畜一枚~~

前言

完整数据包括一些简单的分析,做得很简单,因为累了要睡了
详细文档与数据下载超链接
在这里插入图片描述

import pandas as pd 
import matplotlib.pyplot as plt
import jieba
from collections import Counter
import pandas as pd 
from wordcloud import WordCloudimport warnings
warnings.filterwarnings("ignore")
data =pd.read_excel('./boss网站招聘岗位信息.xlsx',sheet_name='Sheet1')

1 数据探索

data.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2913 entries, 0 to 2912
Data columns (total 9 columns):#   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 0   标题      2913 non-null   object1   地区      2913 non-null   object2   公司名     2913 non-null   object3   公司领域    2913 non-null   object4   薪资      2913 non-null   object5   经验      2913 non-null   object6   规模      2913 non-null   object7   福利      2531 non-null   object8   详情页     2913 non-null   object
dtypes: object(9)
memory usage: 204.9+ KB
columns = data.columns
for i in columns:print('---------------------------'+i+'------------------------------')print(display(pd.DataFrame(data[i].value_counts())))
---------------------------标题------------------------------
标题
数据分析师162
大数据开发156
大数据开发工程师118
Python117
爬虫工程师106
......
Java开发工程师1
系统运维1
人工智能讲师(四川科技)1
【2022校招】数据分析1
AI 算子测试开发1

913 rows × 1 columns

None
---------------------------地区------------------------------
地区
深圳·南山区·科技园58
南京·江宁区·秣陵48
北京·海淀区·西北旺40
北京39
北京·朝阳区·望京37
......
深圳·南山区·南山中心1
武汉·洪山区·街道口1
无锡·梁溪区·上马墩1
抚州·金溪县·秀谷中大道1
杭州·滨江区·星光大道1

1209 rows × 1 columns

None
---------------------------公司名------------------------------
公司名
中软国际151
法本67
博彦科技53
软通动力信息技术集团37
神州信息18
......
吉灵科技1
河南日盛1
深度智耀1
北京千喜鹤公司1
无锡出类1

1936 rows × 1 columns

None
---------------------------公司领域------------------------------
公司领域
计算机软件893
互联网499
移动互联网186
数据服务154
电子商务120
......
婚庆/摄影1
装修装饰1
日化1
制药1
地产经纪/中介1

82 rows × 1 columns

None
---------------------------薪资------------------------------
薪资
10-15K147
8-13K72
5-10K71
4-6K57
15-30K53
......
22-44K1
7-11K·13薪1
400-600元/天1
15-18K·13薪1
70-80K1

483 rows × 1 columns

None
---------------------------经验------------------------------
经验
1-3年大专365
经验不限大专310
3-5年大专277
5-10年本科265
1-3年本科220
......
7天/周1个月本科1
4天/周2个月学历不限1
应届生硕士1
5-10年中专/中技1
3天/周6个月学历不限1

111 rows × 1 columns

None
---------------------------规模------------------------------
规模
10000人以上743
20-99人621
100-499人573
1000-9999人491
0-20人315
500-999人170
None
---------------------------福利------------------------------
福利
五险一金25
员工旅游,免费班车,五险一金,带薪年假,年终奖,餐补,节日福利,加班补助,定期体检,零食下午茶13
带薪年假,员工旅游,节日福利,零食下午茶,加班补助,免费班车,定期体检,五险一金,年终奖,餐补13
五险一金,加班补助,员工旅游,年终奖,免费班车,定期体检,餐补,节日福利,带薪年假,零食下午茶13
餐补,员工旅游,零食下午茶,五险一金,年终奖,定期体检,带薪年假,免费班车,节日福利,加班补助13
......
带薪年假,零食下午茶,通讯补贴,公司餐厅,年终奖,六险一金,定期体检,餐补,免费班车,节日福利,股票期权,交通补助1
员工旅游,加班福利,带薪年假,节日福利,定期体检,五险一金,餐补,入职五险一金1
定期体检,股票期权,带薪年假,五险一金,加班补助,交通补助,年终奖,餐补,节日福利1
团建基金,员工旅游,带薪年假,五险一金,年终奖,全勤奖,爱心点心,节日福利,零食下午茶,项目奖金1
补充医疗保险,内部竞聘,节日福利,带薪年假,员工旅游,餐补,加班补助,零食下午茶,免费班车1

2152 rows × 1 columns

None
---------------------------详情页------------------------------
详情页
https://www.zhipin.com/job_detail/4c25812b39e3b0321nx53925EFdW.html13
https://www.zhipin.com/job_detail/b53e88d4252d99b11nxy2Nm4FVJW.html13
https://www.zhipin.com/job_detail/67288b9757b2ef7303150928GFI~.html13
https://www.zhipin.com/job_detail/bfc8af865c7e41001nB82dy5EVBT.html13
https://www.zhipin.com/job_detail/6dd6a0d1e6234f2b1nx-2NS9FFBR.html13
......
https://www.zhipin.com/job_detail/344ea19ce102f33e1nF93N-_F1JR.html1
https://www.zhipin.com/job_detail/2778e16c9b3f31d01nJ53NS_GVRR.html1
https://www.zhipin.com/job_detail/80ccca15466fca951nF-3Ny_FVpS.html1
https://www.zhipin.com/job_detail/c484ae92e5af62ad1n142Ny_ElFQ.html1
https://www.zhipin.com/job_detail/0b2e0a2d249a171d1nJ-2dq4FlpS.html1

2595 rows × 1 columns

None

2 数据分析

guimo = pd.DataFrame(data['规模'].value_counts().reset_index())
guimo = guimo.rename(columns={'index':'规模','规模':'人数'})
plt.rcParams["font.family"] = 'Arial Unicode MS'
plt.bar(guimo['规模'], guimo['人数'])
plt.xlabel('规模')
plt.ylabel('人数')
x=np.arange(6) #课程品类数量已知为14,也可以用len(ppv3.index)
#设置y轴的数值,需将numbers列的数据先转化为数列,再转化为矩阵格式
y=np.array(list(guimo['人数']))
for a,b in zip(x,y):plt.text(a, b+0.05, '%.0f' % b, ha='center', va= 'bottom',fontsize=10)
plt.title('公司规模人数的直方图分布')
Text(0.5, 1.0, '公司规模人数的直方图分布')

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-aoOz66NN-1641306756600)(output_7_1.png)]

  • 2分析数据分析的学历要求
data['学历'] = '天天开心'
xueli = ['大专以下','大专','本科','硕士','博士','学历不限']
c = Counter()
for i in range(len(data)):for j in xueli:if j in data['经验'][i]:c[j]+=1
xueli_data = pd.DataFrame([])
for (k,v) in c.most_common(5):# 输出词频最高的前500个词xueli_data = xueli_data.append(pd.DataFrame({"学历":[k], "数量":[v]}), ignore_index=True)
plt.rcParams["font.family"] = 'Arial Unicode MS'
plt.bar(xueli_data['学历'], xueli_data['数量'])
plt.xlabel('学历')
plt.ylabel('数量')
x=np.arange(5) #课程品类数量已知为14,也可以用len(ppv3.index)
#设置y轴的数值,需将numbers列的数据先转化为数列,再转化为矩阵格式
y=np.array(list(xueli_data['数量']))
for a,b in zip(x,y):plt.text(a, b+0.05, '%.0f' % b, ha='center', va= 'bottom',fontsize=10)
plt.title('数据分析学历要求的直方图分布')
Text(0.5, 1.0, '数据分析学历要求的直方图分布')

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-oZ8R2oxG-1641306756602)(output_9_1.png)]

data['city'] = '天天开心'
for i in range(len(data)):data['city'][i] = data['地区'][i].split('·')[0]
city = pd.DataFrame(data['city'].value_counts().reset_index())
city = city.rename(columns={'index':'city','city':'数量'})[:10]
plt.rcParams["font.family"] = 'Arial Unicode MS'
plt.bar(city['city'], city['数量'])
plt.xlabel('city')
plt.ylabel('数量')
x=np.arange(10) #课程品类数量已知为14,也可以用len(ppv3.index)
#设置y轴的数值,需将numbers列的数据先转化为数列,再转化为矩阵格式
y=np.array(list(city['数量']))
for a,b in zip(x,y):plt.text(a, b+0.05, '%.0f' % b, ha='center', va= 'bottom',fontsize=12)
plt.title('数据分析公司城市的直方图分布')
Text(0.5, 1.0, '数据分析公司城市的直方图分布')

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-f0IdsWN7-1641306756604)(output_10_1.png)]

  • 4 词云图
def cal_word_freq(texts):words = []for text in texts:words.extend(list(jieba.cut(text)))return pd.Series(words).value_counts()
data['福利']=data['福利'].astype(str)
qieci = pd.DataFrame(cal_word_freq(data['福利'].to_list()).reset_index())
qieci = qieci.rename(columns={'index':'key_word','0':'词频'})[:50]
bimg = imread('heart.jpeg')
wordcloud = WordCloud(background_color="white", mask=bimg, font_path='simhei.ttf')
wordcloud = wordcloud.fit_words(words_stat.head(4000).itertuples(index=False))
bimgColors = ImageColorGenerator(bimg)
plt.axis("off")
plt.imshow(wordcloud.recolor(color_func=bimgColors))
plt.show()
qieci.to_excel('./词云.xlsx',index=False)
qieci
key_word0
019213
1五险2394
2一金2374
3带薪2159
42155
52154
6福利2134
7节日2091
8年终奖1995
9补助1971
10体检1788
11定期1782
12员工1546
13旅游1533
14零食1286
15下午茶1283
16餐补1259
17加班1106
18补充947
19医疗保险942
20交通877
21补贴770
22免费745
23股票725
24期权725
25通讯722
26班车671
27全勤奖662
28nan382
29包吃335
30住房补贴325
31企业78
32团建70
33文化68
34活动46
35健身房42
36生日33
37奖金27
38绩效奖金22
39双休21
40晚餐20
41培训20
42六险20
43项目19
44健身19
45朝九晚18
46包住18
4718
48提供18
49住宿17
city = pd.DataFrame(data['公司领域'].value_counts().reset_index())
city = city.rename(columns={'index':'公司领域','公司领域':'数量'})[:15]
plt.figure(figsize=(16, 6.5))
plt.rcParams["font.family"] = 'Arial Unicode MS'
plt.bar(city['公司领域'], city['数量'])
plt.xlabel('公司领域')
plt.ylabel('数量')
x=np.arange(15) #课程品类数量已知为14,也可以用len(ppv3.index)
#设置y轴的数值,需将numbers列的数据先转化为数列,再转化为矩阵格式
y=np.array(list(city['数量']))
for a,b in zip(x,y):plt.text(a, b+0.05, '%.0f' % b, ha='center', va= 'bottom',fontsize=12)
plt.title('数据分析公司领域的直方图分布')
Text(0.5, 1.0, '数据分析公司领域的直方图分布')

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-0TLyTE3J-1641306756606)(output_15_1.png)]

总结

专栏学习

01 【数据分析实战项目】: 无人智能售货机商务分析、 线上课程智能推荐、 学术前沿趋势分析

02 【算法--数据挖掘】: 机器学习----吃瓜教程!、 集成学习、 深度学习 学术前沿趋势分析

03 【天池数据挖掘竞赛】: 心电信号多分类分类、 新闻推荐入门赛系统项目

04 【Python数据分析】: Numpy 数值计算基础、 Matplotlib 数据可视化基础、 Pandas 统计分析基础、 Pandas 进行数据预处理、 scikit-learn 构建模型

往期精彩内容

01 【常见的数据分析师的面试问题】: 基础知识考查、概率论与数理统计、数据挖掘、常见模型介绍、数据分析师工作必备技能等等

02 【基于条件随机场模型的中文分词】: 中文分析、python代码实现

03 【 Github开源项目】: Github开源项目 数分/数挖学习路线

       欢迎关注我,一起交流学习探索数据分析的世界,洞察数据!努力接受社会毒打~~

@翀- 我的博客主页

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/30787.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Boss直聘招聘数据分析-202104月版

西安boss直聘4月招聘信息分析 关于boss直聘数据采集可查看另一篇文章《Boss直聘数据采集及分析》 金三银四&#xff0c;一年里比较火热的招聘季即将结束&#xff0c;那么西安软件开发行业截止目前还剩余的招聘岗位都还有哪些呢&#xff0c;近期在查看boss站点的时候就顺手…

chatgpt赋能python:Python函数拟合:理解、应用和优化

Python函数拟合&#xff1a;理解、应用和优化 Python是一种广泛使用的高级程序设计语言&#xff0c;它具有简单易学、开放源代码、跨平台、扩展性强等特点。在数据科学领域&#xff0c;Python是数据分析和建模的重要工具之一。其中&#xff0c;Python的函数拟合库具有重要的地…

交易猫源码+后台搭建教程

教程&#xff1a;修改数据库账号密码直接使用\n\n程序&#xff1a;https://pan.baidu.com/s/16lN3gvRIZm7pqhvVMYYecQ?pwd6zw3

《魅魔succubus》 来自韩国3d建模师 yeonghee cho

作品《魅魔succubus》 来自韩国3d建模师 yeonghee cho~~~ 或许你还想了解这些内容&#xff1a; 文章推荐阅读 【 学习企鹅圈&#xff1a;1072172722 】 &#xff1a; 3d建模什么水平能找到工作&#xff1f;次世代游戏建模需要学多久 3D建模师薪资怎么样? 室内设计建模6k&a…

浅浅分析一下Retrofit

浅浅分析一下Retrofit 文章目录 浅浅分析一下Retrofit简单介绍示例根据接口创建Java接口&#xff1a;创建retrofit对象&#xff0c;并生成接口实现类对象 注解请求类注解参数类注解标记类注解注解解析 好处 ​ 要想实现和服务器的通信&#xff0c;我们需要使用通讯间的协议来进…

浅浅分析滤波器截止频率

截止频率是描述滤波器性能的一个指标。对于一个滤波器&#xff0c;在其输入信号幅度保持不变的情况下&#xff0c;只改变输入信号的频率&#xff0c;当其输出信号幅度下降为输入信号幅度的0.707倍时&#xff0c;此时的频率即为该滤波器的截止频率。 一、理论分析 对于上图所示…

浅浅的介绍一下STL

1.什么是STL STL 全称 (Standard Template Library)&#xff0c;就是标准模板库&#xff0c;说人话就是C标准里帮我们写好了一些经常用到的东西&#xff0c;其中包括容器&#xff08;就是存东西的&#xff09;、算法&#xff08;例如之前学过的sort &#xff09;、迭代器&#…

浅浅的计算机网络知识

目录 计算机网络&#xff08;连接分散计算机设备以实现信息传递的系统&#xff09;_百度百科 传输协议 传输层次 通信 计算机网络协议分层结构 开放系统互连参考模型的特点 IPv4协议 IPv6协议 FTP HTTP 网络传输协议 较为系统框架 先面向百度搭建理解框架 计算机网…

浅浅理解一下堆

目录 一、堆的定义及本质 二、堆的核心操作 1、向下调整 2、堆的创建 3、向上调整 三、堆的比较器传入及堆中简单函数的实现 四、堆的应用 1、用于OS调度进程 2、topk问题 3、堆排序 一、堆的定义及本质 堆在Java中是以优先级队列来表现的&#xff08;PrityQueue&#…

浅浅的复习一下sql

DISTINCT 语法&#xff1a; SELECT DISTINCT 列名称 FROM 表名称1、现在有一个表如下&#xff1a; 2、执行sql语句-1 SELECT DISTINCT ename,email FROM emp 结果&#xff1a; 说明&#xff1a;由于小刘的ename和email重复了&#xff0c;所以结果只显示一次&#xff01; 3…

浅浅仿制一个APP首页

一、实验目标 做一个APP首页&#xff0c;包括顶部图片、顶部菜单栏、中部消息模块、底部Tab按钮。学习 ScrollView, RelativeLayout&#xff0c;以及插件之间的穿插使用。 二、实验步骤 列出实验的关键步骤、代码解析、截图。 1.逻辑梳理 做一个app首页&#xff0c;包括顶部…

花嫁之容氏浅浅最后怎么样了_花嫁之容氏浅浅章节目录阅读

花嫁之容氏浅浅小说完整版无弹窗在线阅读。花嫁之容氏浅浅小说是作者&#xff1a;许暖暖创作完成的一本热门玄幻灵异小说&#xff0c;主要讲述女主舒浅和鬼王容祁两人的精彩故事。梦里&#xff0c;舒浅感受到一双冰冷的手在自己身上游走&#xff0c;可是即使这样&#xff0c;舒…

干货文章 | 低代码真的有价值吗?

作者&#xff1a;瀚码技术钟惟渊&#xff08;第⼀作者&#xff09;、独⽴顾问王甲佳&#xff08;第⼆作者&#xff09;、瀚码⼀⼑云叨叨AI助⼿&#xff08;第三作者&#xff09; 全文共4912字&#xff0c;阅读约需要15min 本系列文章由瀚码技术钟惟渊构思、制定大纲、组织了关…

零信任落地实践【新世界】

&#x1f315;写在前面 &#x1f389;欢迎关注&#x1f50e;点赞&#x1f44d;收藏⭐️留言&#x1f4dd; ✉️今日分享&#xff1a; 莫道前路多险阻&#xff0c;再闯关山千万重 &#x1f340; 前言 轻舟已过万重山&#xff0c;始终不忘初心。在网络安全领域&#xff0c;我们…

神龙显灵-走进中国传统节日二月二龙抬头

二月二龙抬头&#xff0c;是中国传统的节日之一&#xff0c;也是春节的收官之战。这个节日被视为一个转折点&#xff0c;标志着春天的到来&#xff0c;也为农民们带来了新的希望和期待。 二月二这个日子有很多习俗和传说&#xff0c;其中最著名的就是“龙抬头”。据传说&#…

盘古大模型,让人人实现数字人自由

编辑&#xff1a;阿冒 设计&#xff1a;沐由 就在华为开发者大会2023 < HDC.Cloud 2023 > 正式开启的前夜&#xff0c;一则重磅消息从海外传来&#xff1a; 国际顶级学术期刊《自然》&#xff08;Nature&#xff09;杂志正刊发表了华为云盘古大模型研发团队研究成果——《…

奥运礼服设计师:AIGC 让童装设计从绿皮车进入高铁时代

近日&#xff0c;由温州 AIGC 产业联盟、温州市服装商会共同发起的“首届温州鞋服产业 AIGC 设计大赛”活动正如火如荼进行。大赛聚焦 13 岁青少年服饰设计这一行业存在已久的难题&#xff0c;探讨如何利用 AIGC 热门工具解决青少年服装设计痛点。据巴比特了解&#xff0c;该活…

每日互动(个推)CTO叶新江:AIGC时代,大模型推动数据要素商业化

ChatGPT在一夜之间火爆互联网&#xff0c;让AIGC受到世界范围内的高度关注。时至今日&#xff0c;AIGC热度持续高涨&#xff0c;各大互联网公司争相布局这一领域。日渐成熟的技术、显著的降本增效优势以及日益增长的市场需求等因素&#xff0c;已经推动AIGC成为互联网公司新一轮…

YEF 2023 18日开幕,逾千青年精英齐聚话“突围”

YEF2023 18日在温州开幕&#xff0c;在CCF YOCSEF创建25周年之际&#xff0c;逾千名计算机相关的学术、技术、产业、媒体、社会组织中的青年人才&#xff0c;汇聚温州鹿城区&#xff0c;一起回望、一起思辨、一起突围。 5月18日上午&#xff0c;由CCF主办&#xff0c;温州市人民…

AI大模型迈入应用时代,每日互动推动“可控大模型”落地

垂直行业更需要可控大模型 当下&#xff0c;大模型正在不断精进&#xff0c;以GPT-4、文心一言为代表的大模型&#xff08;LLM&#xff09;表现出了强大的逻辑推理能力&#xff0c;并能够很好地处理复杂任务&#xff0c;使得社会生产力得到了飞跃式提升。 面对大模型热度的持…