【毕业设计】大数据心血管疾病数据分析(医学大数据分析)

文章目录

  • 0 前言
  • 1 课题背景
  • 2 数据处理
  • 3 数据可视化
  • 4 最后

0 前言

🔥 Hi,大家好,这里是丹成学长的毕设系列文章!

🔥 对毕设有任何疑问都可以问学长哦!

这两年开始,各个学校对毕设的要求越来越高,难度也越来越大… 毕业设计耗费时间,耗费精力,甚至有些题目即使是专业的老师或者硕士生也需要很长时间,所以一旦发现问题,一定要提前准备,避免到后面措手不及,草草了事。

为了大家能够顺利以及最少的精力通过毕设,学长分享优质毕业设计项目,今天要分享的新项目是

🚩 基于大数据的心血管疾病分析

🥇学长这里给一个题目综合评分(每项满分5分)

  • 难度系数:4分
  • 工作量:4分
  • 创新点:3分

🧿 选题指导, 项目分享:

https://gitee.com/yaa-dc/BJH/blob/master/gg/cc/README.md

1 课题背景

本项目的任务是利用患者的检查结果预测心血管疾病(CVD)的存在与否。

2 数据处理

数据集包括年龄、性别、收缩压、舒张压等12个特征的患者数据记录7万份。

当患者有心血管疾病时,目标类“cardio”等于1,如果患者健康,则为0。

数据描述

有三种类型的输入特征:

  • Objective: 客观事实;
  • Examination: 体检检查结果;
  • Subjective: 病人提供的信息

在这里插入图片描述
数据信息概览

import numpy as np
import pandas as pd
import seaborn as sns
from matplotlib import pyplot as plt
import osdf.head()

在这里插入图片描述
变量分析

df.info()

在这里插入图片描述
所有特征都是数字,12个整数和1个小数(权值)。第二列告诉我们数据集有多大,每个字段有多少非空值。
我们可以使用’ describe() ‘来显示每个属性的样本统计信息,比如’ min ‘、’ max ‘、’ mean ‘、’ std ':

评论

df.describe()

在这里插入图片描述
年龄以天为单位,身高以厘米为单位。
让我们看看数值变量以及它们是如何在目标类中分布的。
例如,什么年龄患有心血管疾病的人数超过没有心血管疾病的人数?

3 数据可视化

from matplotlib import rcParams
rcParams['figure.figsize'] = 11, 8
df['years'] = (df['age'] / 365).round().astype('int')
sns.countplot(x='years', hue='cardio', data = df, palette="Set2");

在这里插入图片描述
可以观察到55岁以上的人更容易得心血管疾病的。
从上面的表格中,我们可以看到ap_hi, ap_lo, weight 和height中有异常值。我们以后再处理。

让我们看看数据集中的分类变量及其分布:

df_categorical = df.loc[:,['cholesterol','gluc', 'smoke', 'alco', 'active']]
sns.countplot(x="variable", hue="value",data= pd.melt(df_categorical));

在这里插入图片描述

df_long = pd.melt(df, id_vars=['cardio'], value_vars=['cholesterol','gluc', 'smoke', 'alco', 'active'])
sns.catplot(x="variable", hue="value", col="cardio",data=df_long, kind="count");

在这里插入图片描述
可以清楚地看到,CVD患者的胆固醇和血糖水平较高。而且一般来说不太活跃,运动少。

为了计算“1”在性别栏中代表女性还是男性,让我们计算每个性别的身高平均值。我们假设男人平均比女人高。

corr = df.corr()
cmap = sns.diverging_palette(220, 10, as_cmap=True)
mask = np.zeros_like(corr, dtype=np.bool)
mask[np.triu_indices_from(mask)] = True# 设置matplotlib图
f, ax = plt.subplots(figsize=(11, 9))
# 画出热图,并校正长宽比
sns.heatmap(corr, mask=mask, cmap=cmap, vmax=.3, center=0,annot = True,square=True, linewidths=.5, cbar_kws={"shrink": .5});

在这里插入图片描述
我们可以看到年龄和胆固醇有显著的影响,但与目标阶层的相关性不是很高。

.
让我们创建violinplot来显示不同性别的身高分布。

查看每个性别特征值的身高和体重的平均值可能不足以决定1是男性还是女性。

import warnings
warnings.filterwarnings("ignore")
df_melt = pd.melt(frame=df, value_vars=['height'], id_vars=['gender'])
plt.figure(figsize=(12, 10))
ax = sns.violinplot(x='variable', y='value', hue='gender', split=True, data=df_melt, scale='count',scale_hue=False,palette="Set2");

在这里插入图片描述
让我们创造一个新的特征-身体质量指数(BMI):

在这里插入图片描述
比较健康人的平均BMI和病人的平均BMI。正常的BMI值在18.5到25之间。

df['BMI'] = df['weight']/((df['height']/100)**2)
sns.catplot(x="gender", y="BMI", hue="alco", col="cardio", data=df, color = "yellow",kind="box", height=10, aspect=.7);

在这里插入图片描述
根据女性的BMI,喝酒的女性比喝酒的男性有更高的心血管疾病风险。

4 最后

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/54712.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【毕业设计】医学大数据分析 - 心血管疾病分析

1 前言 🚩 基于大数据的心血管疾病分析 🥇学长这里给一个题目综合评分(每项满分5分) 难度系数:3分工作量:3分创新点:4分 🧿 选题指导, 项目分享: https://gitee.com/dancheng-senior/proje…

大厂开源之殇

‍ 本轮开源之风吹起迄今数年,最大的影响还是越来越多的商业公司开始探索开源方法能够如何改变自己的经营策略。 开源策略循序渐进分成使用、参与和发起。 在发起开源项目实践一线的,一个是打着开源旗号的创业公司,另一个就是大型企业尤其互联…

Zerobot僵尸网络出现了新的漏洞利用和功能

©网络研究院 Zerobot DDoS僵尸网络已经获得了重大更新,扩展了其针对更多互联网连接设备和扩展网络的能力。 微软威胁情报中心 (MSTIC)正在以DEV-1061的名称跟踪持续的威胁,名称为未知、新兴或发展中的活动群集。 本月早些时候,Fort…

github action 基于个人项目实践

前言: DevOps 和 Jenkins 作为一名开发,虽然也没有经常听到 Devops (研发和运维一体化)这个概念,但日常工作中已经无处不在地用着 DevOps 工具。自研也好,基于开源项目改造也好,互联网公司基本都会有自已的…

张晴晴:对话数据推动AIGC——大模型底层数据探索

“Training data is technology” . 数据即科技,OpenAI的联合创始人IlyaSutskever在与知名科技媒体The Verge访谈中提到。ChatGPT自发布以来热度席卷全球,一周前惊艳亮相的GPT-4更是让人感叹我们迎来了AI发展的历史性时刻。 然而我们也困惑,O…

通过CSIG—走进合合信息探讨生成式AI及文档图像处理的前景和价值

一、前言 最近有幸参加了由中国图象图形学学会(CSIG)主办,合合信息、CSIG文档图像分析与识别专业委员会联合承办的“CSIG企业行——走进合合信息”的分享会,这次活动以“图文智能处理与多场景应用技术展望”为主题,聚…

期权专题2:备兑期权

组合期权在四种基本期权的基础上,进行组合,构建出对应的策略。我们先回顾一下基本期权的定价代码。 def option_price(type, dir, S, K None, cost None):获取期权的价值,权利金默认为50Parameters----------type:期权类型,put表示看跌,call表示看涨,…

期权 证券 股票(沪深300ETF)等数据获取

Python 使用tushare模块,这些需要积分,临时使用推荐在闲鱼上买一个月/半年的账号(期权需要5000积分,普通的股票只需要2000积分),不要选择淘宝的单次代下载(又贵又不方便)&#xff0c…

[QMT]05-获取基础行情信息

函数:获取合约基础信息 get_instrument_detail(stock_code) 1 释义 获取合约基础信息 参数 stock_code - string 合约代码 返回 dict 数据字典,{ field1 : value1, field2 : value2, ... },找不到指定合约时返回None ExchangeID - string 合约…

50ETF期权历史数据获取

文章目录 前言一、期权历史数据二、步骤1.安装Choice终端1.1 注册用户 2.导出数据3.表格检索 EOF 前言 在量化交易时需要50ETF(510050)期权历史数据进行回测支持,正常情况下,到期的期权日线数据已经被关闭无法获取。 本文主要讲解如何使用choice数据终端…

技术流薅支付宝羊毛,日入上万不是梦!

阅读文本大概需要 6.66 分钟。 这篇文章发出去不久,就有读者用文章所说的方法赚了 5473 元,还特意给我发了一大红包。 只有当你懂得感恩时,你才能走的更远。 在之前的文章里说过薅羊毛是有分等级,初级的玩法就是在微信群&#xff…

【项目】关于汇付宝支付对接

文章目录 前言引入maven项目结构常量类requestreponseutils签约效果官网文档问题 前言 本文是结合第三方demo提供,然后整理的代码,主要涉及的接口有,签约,支付,流程是,用户输入身份证、银行卡等信息&#…

网赚渠道,付费项目和免费项目,你会选择哪种网赚方式

大家好,我是蝶衣王的小编 在我的理解里呢,网赚分为付费和免费两种。那我也就这两种跟各位分享一下吧。 免费项目 时间财富网 国内的一个任务网站的代表之一,门槛比较低。只要有一技之长,就可以在上面找到让你赚钱的一个任务&am…

免费使用的支付宝,到底是怎么一年赚1206亿的?

全世界只有3.14 % 的人关注了 爆炸吧知识 眨眼间,马云居然退休已经一年了,真可谓白驹过隙,恍惚而逝啊! 不过,你以为马云退休了,就清风明月,万事不管了。 太年轻! 其实马云依旧掌控者…

支付宝赚赏金的四种玩法(引流+变现日入200+)

各大网赚公众号,都推了支付包赏金的玩法,我也来跟跟热度。 以下是收集到的目前市面上常见的玩法。 一:群发好友或者朋友圈。 群发好友或者朋友圈的目的,都是为了让别人来扫描我们的赏金二维码,直接得到赏金。 而好…

在团购网上空手赚钱项目,你敢做就敢赚!

【项目介绍】: 利用团购网销售一款网络热销的静脉曲张袜。 【市场前景】: 团购网站2011年开始火爆起来,到现在团购也都一直还行,毕竟属于概念性行业,只是对于商家来说有时候并不是好事,我对待团购的看法是…

X 进制转十进制黄金万能算法

单纯、混合进制通吃,真正的黄金万能的进制转换方法。 【学习的细节是欢悦的历程】 Python 官网:https://www.python.org/ Free:大咖免费“圣经”教程《 python 完全自学教程》,不仅仅是基础那么简单…… 地址:https:/…

如何通俗地理解熵?

熵,是一个热力学的概念。但在历史的发展中,造就了它非常丰富的内涵,进入了很多学科的视野。本文会在数理层面对它进行一个解读,厘清它在逻辑上到底是什么。 1 混乱的熵 很多科普文章中,都提到熵是用来度量混乱的。比…

透彻理解熵(包括信息熵和交叉熵)

信息论(熵的基础) 熵 相对熵(KL散度) 交叉熵 机器学习中交叉熵的应用 为什么要用交叉熵做loss函数? 交叉熵在单分类问题中的使用 交叉熵在多分类问题中的使用 sigmoid激活函数(承接上面多分类用Sig…