4.1 数据分析-excel 基本操作

第四节:数据分析-excel 基本操作

课程目标

  • 学会excel 基本操作

课程内容

数据伪造

产生一份招聘数据

import pandas as pd
from faker import Faker
import random
import numpy as np# 创建一个Faker实例,用于生成假数据,指定中文本地化
fake = Faker('zh_CN')# 定义一些可能的公司大小和领域
company_sizes = ['小型', '中型', '大型']
company_fields = ['科技', '金融', '教育', '医疗', '制造']# 准备数据集
data = []for i in range(1000):city = fake.city_name() if random.random() > 0.1 else np.nan  # 10% 的概率生成缺失值 full_name = fake.company()company_id = fake.uuid4()short_name = full_name[:2]size = random.choice(company_sizes)job_title = fake.job()business_district = fake.street_address()department = job_titleeducation_requirement = random.choice(['本科', '硕士', '博士', '无要求'])field = random.choice(company_fields)job_id = fake.uuid4() if random.random() > 0.1 else np.nan  # 10% 的概率生成缺失值benefits = ', '.join(random.sample(['五险一金', '带薪年假', '年终奖', '股票期权', '弹性工作'], random.randint(1, 5)))salary = random.randint(3000, 50000) if random.random() > 0.1 else np.nan  # 10% 的概率生成缺失值 experience_required = f"{random.randint(1, 10)}年"# 上班时间 8:00-10:00start_work_time = f"{random.randint(8, 10)}:00"end_work_time = f"{random.randint(18, 20)}:00"data.append([city, full_name, company_id, short_name, size, business_district, department, education_requirement, field, job_id, benefits, job_title, salary, experience_required,start_work_time, end_work_time])# 将数据转换为DataFrame
df = pd.DataFrame(data, columns=['城市', '公司全名', '公司ID', '公司简称', '公司大小', '公司所在商区', '职位所属', '教育要求', '公司所属领域', '职位ID', '职位福利', '职位', '薪水', '工作年限要求',"上班时间","下班时间"
])# 写入Excel文件
df.to_excel('company_data.xlsx', index=False)
df.to_csv('company_data.csv', index=False)print("数据已成功写入Excel文件。")
格式化
根据文本自动调整列宽

在这里插入图片描述

数据清洗
缺失值处理
  • 定位缺失值
    分别点击A列,B列,C列…
    在这里插入图片描述
    查看每列字数确定哪些列缺失
    在这里插入图片描述
  • 定位缺失值选中缺失列
    在这里插入图片描述
  • 处理缺失值
    • 删除
      在这里插入图片描述

    • 填充固定值 输入框输入值,按ctrl+enter
      在这里插入图片描述

    • 填充特殊值(平均值,总数,中位数)求出值后,方法同上

数值型
求和

比如我们要求所有薪资总量,使用SUM函数
在这里插入图片描述

求均值

使用AVERAGE函数
在这里插入图片描述

求众数

MODE.SNGL函数
在这里插入图片描述

中位数

函数MEDIAN
在这里插入图片描述

统计数量

COUNT函数
在这里插入图片描述
有值的有896个,说名有缺失值

文本型
查找

比如看下哪些公司有带薪年假,有则为位置,没有则为0,需要FIND函数和IFERROR函数配合使用
在这里插入图片描述

字符长度

如获取福利待遇长度,后面通过该长度对优秀公司排序
LEN函数
在这里插入图片描述

左截取

比如获取公司名字简称,可以用LEFT函数
在这里插入图片描述

右截取

比如要获取公司类型,用RIGHT函数,截取后6个字符
在这里插入图片描述

连接

比如将上下班时间连在一起
CONCATENATE函数
在这里插入图片描述

分析
排行

获取当前福利待遇的排行 RANK函数
在这里插入图片描述

筛选满足条件的并排行

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/415985.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

不小心删除丢失了所有短信?如何在 iPhone 上查找和恢复误删除的短信

不小心删除了一条短信,或者丢失了所有短信?希望还未破灭,下面介绍如何在 iPhone 上查找和恢复已删除的短信。 短信通常都是非正式和无关紧要的,但短信中可能包含非常重要的信息。因此,如果您删除了一些短信以清理 iPh…

MASt3R:从3D的角度来实现图像匹配(更新中)

Abstract 图像匹配是 3D 视觉中所有性能最佳算法和pipeline的核心组件。 然而,尽管匹配从根本上来说是一个 3D 问题,与相机姿态和场景几何结构有内在联系,但它通常被视为一个 2D 问题。因为匹配的目标是建立 2D 像素字段之间的对应关系&#…

MYSQL:删除指定时间范围内每个电站每天发电数据除最大值以外的记录

有一个需求,需要保留每个电站每一天发电数据的最大值记录,其余删除。 表数据大概长这样: MYSQL 5.7写法:(因为不支持ROW_NUMBER()函数,采用自定义的变量来代替) 首次清理一年内数据&#xff1…

在Postgresql中计算工单的对应的GPS轨迹距离

一、概述 在某个App开发中,要求记录用户的日常轨迹,在用户巡逻设备的时,将记录的轨迹点当做该设备巡逻时候的轨迹。 由于业务逻辑上没有明确的指示人员巡逻工单-GPS位置之间的关系,所以通过时间关系进行轨迹划定。 二、创建测试表…

备受500强企业青睐的安全数据交换系统,到底有什么优势?

网络隔离成为常见的安全手段 网络隔离技术已成为许多企业进行网络安全建设的重要手段之一,党政单位、金融机构、半导体企业、以及能源电力、医疗、生物制药等等行业及领域的企业都会选择方式不一的网络隔离技术来保护自己的网络安全,规避互联网中的网络…

python开发--模板语句

这部分是导航栏部分的代码,由于导航栏在各个页面都需要用,为了提高代码复用率将导航栏部分作为一个模板。 在下面代码图中,红色框部分相当于一个插槽,其他页面,如部门列表、用户列表等将在这个位置展示。 这部分是用户…

全国地市未来产业水平数据集(2008-2023年)

未来产业,作为驱动经济社会高质量发展的核心引擎,是指依托科技创新和模式创新,引领全球新一轮科技革命和产业变革,具有前瞻性、先导性、战略性的新兴产业领域。也是实现生产力大解放,推动生产力质的跃迁并形成新质生产…

路径处理秘籍:Golang path包最佳实践与技巧

路径处理秘籍:Golang path包最佳实践与技巧 引言基本概念和功能path包简介路径的概念:相对路径与绝对路径常见操作函数概览 路径清理和拼接path.Cleanpath.Joinpath.Split 路径提取与处理path.Basepath.Dirpath.Ext处理不同操作系统的路径分隔符 路径匹配…

kubeadm方式升级k8s集群

一、注意事项 升级前最好备份所有组件及数据,例如etcd 不要跨两个大版本进行升级,可能会存在版本bug,如: 1.19.4–>1.20.4 可以 1.19.4–>1.21.4 不可以 跨多个版本的可以逐个版本进行升级。 二、查看当前版本 [rootk8s…

AI时代的程序员:关于创业、应用开发与快速成长的经验分享 | CSDN杭州线下分享

写在前面 上周六参加了一个CSDN组织的线下技术沙龙,做了一个分享,所以本篇内容对当时分享的内容做一个整理,感谢CSDN平台和鲲志大佬的组织,让大家有了一次深入的沟通交流。 先贴照片留念: 本来是想弄个详细点的逐字稿…

【qt】多线程实现倒计时

1.界面设计 设置右边的intvalue从10开始倒计时 2.新建Thread类 新建Thread类,使其继承QThread类,多态重写run函数,相当于线程执行函数 3.重写run函数 重写run函数,让另一个进程每隔1s发出一个信号,主线程使用conne…

大零售时代:开源 AI 智能名片、2+1 链动与 O2O 商城小程序引领融合新趋势

摘要:本文深入探讨了当今零售业态的发展趋势,指出在数据匹配的时代,人依然在零售中发挥着重要作用。通过对大零售理念的阐述,分析了跨行业跨业态融合的必然性,强调了业态融合的指导思想以及实现方式。同时,…

《OpenCV计算机视觉》—— 对图片的各种操作

文章目录 1、安装OpenCV库2、读取、显示、查看图片3、对图片进行切割4、改变图像的大小5、图片打码6、图片组合7、图像运算8、图像加权运算 1、安装OpenCV库 使用pip是最简单、最快捷的安装方式 pip install opencv-python3.4.2还需要安装一个包含了其他一些图像处理算法函数的…

【教程】MySQL数据库学习笔记(六)——数据查询语言DQL(持续更新)

写在前面: 如果文章对你有帮助,记得点赞关注加收藏一波,利于以后需要的时候复习,多谢支持! 【MySQL数据库学习】系列文章 第一章 《认识与环境搭建》 第二章 《数据类型》 第三章 《数据定义语言DDL》 第四章 《数据操…

华为云征文|华为云Flexus X实例docker部署srs6并调优,协议使用webrtc与rtmp

华为云征文|华为云Flexus X实例docker部署srs6并调优,协议使用webrtc与rtmp 什么是华为云Flexus X实例 华为云Flexus X实例云服务是新一代开箱即用、体验跃级、面向中小企业和开发者打造的高品价比云服务产品。Flexus云服务器X实例是新一代面向中小企业…

CRM系统为贷款中介行业插上科技的翅膀

CRM(客户关系管理)系统为贷款中介公司插上了科技的翅膀,极大提升了贷款中介企业的运营效率、客户管理能力和市场竞争力。鑫鹿贷款CRM系统基于互联网、大数据分析、人工智能、云计算等前沿技术,帮助贷款中介公司实现业务流程的自动…

注册安全分析报告:央视网

前言 由于网站注册入口容易被黑客攻击,存在如下安全问题: 暴力破解密码,造成用户信息泄露短信盗刷的安全问题,影响业务及导致用户投诉带来经济损失,尤其是后付费客户,风险巨大,造成亏损无底洞…

Android 11 (R)AMS Activity内部机制

一、AMS是如何被管理的 如我们在Android 11(R)启动流程中介绍的一样,AMS和ATMS是在SystemServer中被启动的 ActivityTaskManagerService atm mSystemServiceManager.startService(ActivityTaskManagerService.Lifecycle.class).getService(); mActivityManagerSe…

名城优企游学活动走进龙腾半导体:CRM助力构建营销服全流程体系

8月29日,由纷享销客主办的“数字中国 高效增长——名城优企游学系列活动之走进龙腾半导体”研讨会在西安市圆满落幕,来自业内众多领袖专家参与本次研讨会,深入分享交流半导体行业的数字化转型实践,探讨行业数字化、智能化转型之路…

Linux【3】文件目录进阶

目录 cd 回到家目录 在最近两次目录来回切花 相对路径:从当前位置开始,前面没有/ or ~ mkdir rm 不可恢复 删除目录 -f 有则删,无也不报错 ls通配符仍适用!【批量删除】 cd 回到家目录 cd cd ~ 在最近两次目录来回…