数据分析-38-关于互联网企业黑名单的探索

论文辅导算法学习可以滴滴我


文章目录

    • 项目介绍
    • 表和字典描述
    • 1、读取数据
    • 2、查看黑名单公司主要来自哪些城市
    • 3、查看黑榜公司分布城市
    • 4、存在的问题
    • 5、查看存在问题分类

项目介绍

在数字化的时代,信息的力量不言而喻,尤其当我们面临职业选择时。是一个开放源代码项目,旨在收集并分享全球范围内存在争议或不良工作环境的IT公司名单,帮助求职者做出更为明智的职业决策。

表和字典描述

该数据集互联网企业黑名单.csv,一共有839条。

8个字段,分别是:公司名字评论链接存在问题详细描述所在城市发布时间评论数浏览数

表数据如下:
在这里插入图片描述

1、读取数据

import pandas as pd
import numpy as np
from warnings import filterwarnings
filterwarnings('ignore')
df1 = pd.read_csv(r'互联网企业黑名单.csv')

查看数据的行数和列数

df1.shape

(838, 8)

查看数据的列名

df1.columns
# 提取浏览次数
import re
df1['浏览数_d'] = df1['浏览数'].apply(lambda x : re.findall(r'\d+',x)[0])
print('黑名单上共有 {}家公司'.format(df1['公司名字'].nunique()))
print('数据日期从 {} 至 {}'.format(df1['发布时间'].min(),df1['发布时间'].max()))
print('黑榜公司共来自全国 {} 个城市'.format(df1['所在城市'].nunique()))
print('浏览次数最多的公司是:\n{}'.format(df1[df1['浏览数_d']==df1['浏览数_d'].max()].公司名字.tolist()))

在这里插入图片描述

2、查看黑名单公司主要来自哪些城市

from pyecharts.charts import Bar,Grid,Map
from pyecharts.commons.utils import JsCode
from pyecharts import options as opts
from pyecharts.globals import SymbolType
df1['所在城市'].fillna('城都市',inplace = True)
result = df1['所在城市'].value_counts().reset_index(name = '公司数量')
result['index'] = result['index'].str.replace('市','')
x_data = result['index'].tolist()
y_data = result['公司数量'].tolist()bar = (Bar().add_xaxis(x_data).add_yaxis("", y_data).set_global_opts(xaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(rotate=65)),title_opts=opts.TitleOpts(title="黑名单公司主要来自哪些城市"),).set_series_opts(itemstyle_opts={"normal": {"color": JsCode("""new echarts.graphic.LinearGradient(0, 0, 0, 1, [{offset: 0,color: 'rgba(131, 96, 195, 1)'}, {offset: 1,color: 'rgba(46, 191, 195, 1)'}], false)"""),"barBorderRadius": [30, 30, 1, 1],"shadowColor": "rgb(0, 160, 221)",}})
)
bar.render_notebook()

在这里插入图片描述

3、查看黑榜公司分布城市

# 地图
map1 = Map()
map1.add('',[list(z) for z in zip(x_data, y_data)],maptype='china-cities',is_map_symbol_show=False,) 
map1.set_series_opts(label_opts=opts.LabelOpts(is_show=False))
map1.set_global_opts(title_opts=opts.TitleOpts(title='黑榜公司分布城市'),visualmap_opts=opts.VisualMapOpts( max_=df1['所在城市'].value_counts().max(),is_piecewise=False,range_color=['#12c2e9','#c471ed','#f64f59']),)map1.render_notebook()

在这里插入图片描述

4、存在的问题

df1['存在问题'] = df1['存在问题'].str.replace('1.单休','单休').str.replace('2.习惯性拖技术部工资','习惯性拖技术部工资').str.replace('3.老板脾气爆','老板脾气爆')
ls = [',',',',';',' ']
for s in ls:df1['存在问题'] = df1['存在问题'].str.replace(s,'/')
from collections import Counter
cause = df1['存在问题'].tolist()
lst = []
lit = []
for s in cause:s = s.split('/')lst.append(s)for x in s:lit.append(x)
cause_ct = Counter(lit)data_c = pd.DataFrame.from_dict(cause_ct,orient='index').reset_index()
data_c.columns = ['存在问题','出现次数']
data_c.sort_values('出现次数',ascending = False,inplace = True)
from pyecharts.charts import WordCloudx_data = data_c['存在问题'].tolist()
y_data = data_c['出现次数'].tolist()(WordCloud().add(" ", [list(z) for z in zip(x_data, y_data)]).set_global_opts(title_opts=opts.TitleOpts(title="存在的问题", title_textstyle_opts=opts.TextStyleOpts(font_size=23)),tooltip_opts=opts.TooltipOpts(is_show=True),)
).render_notebook()

在这里插入图片描述

由于996 ,007 ,9107等都是上班时长,实际是加班问题,对此类标签统一做个大的分类再进行统计

5、查看存在问题分类

data_n = pd.DataFrame(lit,columns = ['问题标签'])def frame(x):if "996" in x or "工作时间9/6" in x:return "996"elif "995" in x:return "995"elif "897" in x:return "897"elif "单休" in x:return "单休"elif "9107" in x:return "9107"elif "9116" in x:return "9116"elif "007" in x:return "007"elif "加班" in x:return "加班"elif "福利差" in x :return "福利差"elif "社保" in x or "不交五险" in x  or "五险不交" in x:return "社保问题"elif "薪" in x or "工资" in x or "赖账"in x or "坑钱" in x:return "拖欠工资"elif "老板" in x or "领导" in x or "管理" in x or "高层" in x:return "领导问题"elif "画饼" in x or "画大饼" in x or "忽悠" in x or "洗脑" in x:return "画饼"elif "裁员"in x or "过河拆桥"in x or "辞退" in x:return "裁员"else:return xdata_n['问题分类'] = data_n['问题标签'].apply(lambda x : frame(x))
data_n['问题大类'] = data_n['问题分类'].apply(lambda x : "加班问题" if "996" in x or "工作时间9/6" in x or "995" in x
or "897" in x or "9107" in x or "9116" in x or "007" in x or "加班" in x else x)
x_data = data_n['问题大类'].value_counts().index.tolist()
y_data = data_n['问题大类'].value_counts().values.tolist()(WordCloud().add(" ", [list(z) for z in zip(x_data, y_data)],word_size_range=[20, 100], shape=SymbolType.DIAMOND).set_global_opts(title_opts=opts.TitleOpts(title="分类-存在的问题", title_textstyle_opts=opts.TextStyleOpts(font_size=23)),tooltip_opts=opts.TooltipOpts(is_show=True),)
).render_notebook()

在这里插入图片描述

黑榜公司上榜除了是因为“网传黑名单”以及“单位性质培训”等两个原因外,大家最不能接受的原因是“拖欠工资”以及“加班问题”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/459100.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

linux系统运维面试题(一)(Linux System Operations Interview Questions I))

💝💝💝欢迎来到我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 本人主要分享计算机核心技…

elementui分页功能(当后端将所有数据全部返回,由前端处理)

摘要: 实现数据导入的时候,后端会返回上传成功数量、更新成功数量、更新失败数量、以及更新失败的原因,但是数据是全部返回来的,所以封装了一个组件了提示,但是数据多的时候会太长了,所以使用table了模拟分…

【蓝桥杯选拔赛真题77】python计算小球 第十五届青少年组蓝桥杯python选拔赛真题 算法思维真题解析

目录 python计算小球 一、题目要求 1、编程实现 2、输入输出 二、算法分析 三、程序编写 四、程序说明 五、运行结果 六、考点分析 七、 推荐资料 1、蓝桥杯比赛 2、考级资料 3、其它资料 python计算小球 第十五届蓝桥杯青少年组python比赛选拔赛真题 一、题目要…

MUX VLAN 实验配置

MUX VLAN(Multiplex VLAN)是一种高级的VLAN技术,通过在交换机上实现二层流量隔离和灵活的网络资源控制,提供了一种更为细致的网络管理方式 MUX VLAN通过定义主VLAN(Principal VLAN)和多个子VLAN&#xff0…

怎么把pdf文档保存成图片格式

有时候我们会碰到只支持图片上传的场景,如何编程快速将pdf转成图片呢? 可以使用 Python 的 pdf2image 库仅10行代码就能将 PDF 文档保存为图片格式。如果 PDF 文档包含多页,则每一页可以保存为单独的图片。以下是实现该功能的步骤&#xff1…

(52)MATLAB仿真说明迫零均衡器的缺点

文章目录 前言一、迫零均衡器的缺点分析二、仿真分析迫零均衡器带来的噪声增强三、仿真结果画图四、信道均衡的MMSE准则 前言 本文从迫零均衡器的设计准则出发,分析了其设计思想和存在的问题。在此基础上给出了MATLAB评估源代码,并运行得到仿真评估结果…

工业互联网平台赋能制造业数字化转型方案(55页PPT)

方案介绍: 本方案旨在通过工业互联网平台,为制造业提供一站式的数字化转型解决方案。平台将集成物联网、云计算、大数据、人工智能等先进技术,实现对生产设备、制造过程、供应链等各个环节的全面数字化管理。通过实施本方案,制造…

《使用Gin框架构建分布式应用》阅读笔记:p234-p250

《用Gin框架构建分布式应用》学习第13天,p234-p250总结,总17页。 一、技术总结 1.message broker (1)RabbitMQ 书里使用的是RabbitMQ(https://www.rabbitmq.com/),这里补充一点说明: docker run -d --name rabbitmq -p 5672:…

美畅物联丨视频上云网关如何配置上级联网云平台

在当今的智慧交通与安防监控体系中,视频上云网关发挥着至关重要的作用。以美畅视频上云网关为例,具备强大的兼容性,能够对接来自不同厂家、不同型号的视频设备,将这些设备输出的各异视频流进行汇聚整合。在获取摄像机视频流后&…

进阶 | Prometheus+Grafana 普罗米修斯

一、Prometheus服务部署 Prometheus服务部署以及关联node节点数据,详情看:入门 | PrometheusGrafana 普罗米修斯-CSDN博客 二、Prometheus验证node节点监控数据 1、修改prometheus server配置 vim /usr/local/prometheus/conf/prometheus.yml 重启服…

一个简单的 uas_send_bye.xml for SIPp

<?xml version"1.0" encoding"UTF-8" ?> <!DOCTYPE scenario SYSTEM "sipp.dtd"> <scenario name"iinv-o200-obye.xml -- wjd 2014"><recv request"INVITE" rrs"true"/><send>&l…

【10天速通Navigation2】(四) :ORB-SLAM3的ROS2 humble编译和配置

前言 往期内容&#xff1a; 第一期&#xff1a;【10天速通Navigation2】(一) 框架总览和概念解释第二期&#xff1a;【10天速通Navigation2】(二) &#xff1a;ROS2gazebo阿克曼小车模型搭建-gazebo_ackermann_drive等插件的配置和说明第三期&#xff1a;【10天速通Navigation…

回溯算法习题其二-Java【力扣】【算法学习day.16】

前言 ###我做这类文档一个重要的目的还是给正在学习的大家提供方向&#xff08;例如想要掌握基础用法&#xff0c;该刷哪些题&#xff1f;&#xff09;我的解析也不会做的非常详细&#xff0c;只会提供思路和一些关键点&#xff0c;力扣上的大佬们的题解质量是非常非常高滴&am…

【Java小白图文教程】-05-数组和排序算法详解

精品专题&#xff1a; 01.《C语言从不挂科到高绩点》课程详细笔记 https://blog.csdn.net/yueyehuguang/category_12753294.html?spm1001.2014.3001.5482 02. 《SpringBoot详细教程》课程详细笔记 https://blog.csdn.net/yueyehuguang/category_12789841.html?spm1001.20…

论文概览 |《Computers, Environment and Urban Systems》2024.10 Vol.113

本次给大家整理的是《Computers, Environment and Urban Systems》杂志2024年10月第113期的论文的题目和摘要&#xff0c;一共包括13篇SCI论文&#xff01; 论文1 Can consumer big data reveal often-overlooked urban poverty? Evidence from Guangzhou, China 消费者大数…

百度SEO中的关键词密度与内容优化研究【百度SEO专家】

大家好&#xff0c;我是百度SEO专家&#xff08;林汉文&#xff09;&#xff0c;在百度SEO优化中&#xff0c;关键词密度和关键词内容的优化对提升页面排名至关重要。关键词的合理布局与内容的质量是确保网页在百度搜索结果中脱颖而出的关键因素。下面我们将从关键词密度和关键…

通俗易懂的餐厅例子来讲解JVM

餐厅版本 JVM&#xff08;Java虚拟机&#xff09;可以想象成一个虚拟的计算机&#xff0c;它能够运行Java程序。为了让你更容易理解&#xff0c;我们可以用一个餐厅的比喻来解释JVM&#xff1a; 菜单&#xff08;Java源代码&#xff09;&#xff1a; 想象一下&#xff0c;Java…

BLFAasia2025广州国际酒饮料制造设备及液态加工技术展览会(广州酒饮料液态加工技术展)

Asia Beer and Beverage Technology and Liquid Food Processing Equipment Exhibition BLFAasia2025广州国际酒饮料制造设备及液态加工技术展览会&#xff08;以下简称&#xff1a;“BLFAasia”&#xff09;展会于2025年8月22-24日在粤港澳大湾区核心城市广州隆重举行。是专注…

自动驾驶-传感器简述

自动驾驶车辆上的传感器类型包含激光雷达、毫米波雷达、相机、imu、rtk、超声波雷达等&#xff0c;这些传感器用来接收外部世界多姿多彩的信号&#xff0c;根据接收到的信号&#xff0c;车载大脑对信号进行处理&#xff0c;那信号的准确程度就尤为重要。 本文将各个传感器的特性…

【acwing】算法基础课-搜索与图论

目录 1、dfs(深度优先搜索) 1.1 排列数字 1.2 n皇后问题 搜索顺序1 搜索顺序2 2、bfs(广度优先搜索) 2.1 走迷宫 2.2 八数码 3、树与图的存储 4、树与图的遍历 4.1 树的重心 4.2 图中点的层次 5、拓扑排序 6、最短路问题 6.1 朴素Dijkstra算法 6.2 堆优化Dijks…