数据分析-前期数据处理

   今天找到一份关于医学体检的数据，在数据分析前期工作需要对数据做处理，在这里我们对原始数据做一些处理，将数据处理为可分析的标准数据。下一篇文章做数据的分析。数据想要获取的话可以到我的资源下载。

1 数据读取

import pandas as pd
data = pd.read_excel(r'E:\学习\项目\数据分析\体检数据\dataset.xls')
print(data.head())

在这里插入图片描述

2 定义数据处理函数

数据中有“是否吸烟”，“是否饮酒”，“性别”是否，需要将其转化为0 1二分类数据，便于后期分析。

# 替换特定的值
def replace_value1(row):if row['是否吸烟'] == '是': # ['是否吸烟'] == '是':return 1else:return 0
def replace_value2(row):if row['是否饮酒'] == '是':return 1else:return 0
def replace_value3(row):if row['性别'] == '男':return 1else:return 0

3 数据处理

数据处理，获取出生年月，从事工作时间，体检年份，年龄等

data['出生年月'] = data['身份证号'].str[4:8]  ## 添加出生年月
data['从事工作年份'] = data['开始从事某工作年份'].astype(str).str[0:4]
data['是否吸烟'] = data.apply(replace_value1, axis=1)
data['是否饮酒'] = data.apply(replace_value2, axis=1)
data['性别'] = data.apply(replace_value3, axis=1)
# for name,group in data.groupby('体检年份'):  ## 体检年份包含字符字段# print(name,group)
data['体检年份'] = data['体检年份'].astype(str).replace('2015年','2015')
data['从事工作时间'] = data['体检年份'].astype(float) - data['从事工作年份'].astype(float)
data['年龄'] = data['体检年份'].astype(float) - data['出生年月'].astype(float)

4 清洗后的数据

干净的数据可以直接用来分析

data_new = data.loc[:,['序号 ', '性别', '是否吸烟', '是否饮酒', '体检年份', '淋巴细胞计数','白细胞计数',  '血小板计数', '出生年月', '从事工作年份', '从事工作时间','年龄']]
print(data_new.head(20))

结果：在这里插入图片描述
下一篇文章会给予处理后的数据进行数据分析。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/423547.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

数据分析-前期数据处理

1 数据读取

2 定义数据处理函数

3 数据处理

4 清洗后的数据

相关文章

SQL Server详细使用教程(包含启动SQL server服务、建立数据库、建表的详细操作) 非常适合初学者

震撼！AI实时生成游戏，每秒20帧，谷歌扩散模型最新突破一夜爆火，附论文介绍和GitHub代码

SpringBoot集成MyBatis-PlusDruid

RDD2022 道路瑕疵检测数据集

力扣之1777.每家商店的产品价格

HarmonyOS 是如何实现一次开发多端部署 -- HarmonyOS自学1

《深度学习》OpenCV 高阶图像直方图、掩码图像参数解析及案例实现

C++——深部解析哈希

【Unity踩坑】No cloud project ID was found by the Analytics SDK

JavaScript 基础 - 第16天_AJAX入门

【TabBar嵌套Navigation案例-cell重用 Objective-C语言】

如何利用 CSS 渐变实现多样化背景效果

灵雀云DevOps：加速应用交付，点燃业务创新引擎

UEC++学习（十七）利用SceneCaptureComponent2d进行截图

计算机网络：概述 - 计算机网络概述

力扣213-打家劫舍 II（Java详细题解）

sheng的学习笔记-AI-规则学习（rule learning）

Lua发邮件：实现自动化邮件发送教程指南！

OpenCV class2-C#+winfrom显示控件使用窗口大小并内存管理

PHP智驭未来悦享生活智慧小区物业管理小程序系统源码