基于Python实现的糖尿病预测系统

资源下载地址:https://download.csdn.net/download/sheziqiong/86792308
资源下载地址:https://download.csdn.net/download/sheziqiong/86792308

基于Python设计的预测糖尿病

摘要和关键词

本次实验的主要内容是使用回归分析和聚类分析来预测某人患糖尿病的可能性和身体的糖尿病指数。

关键词:糖尿病;线性回归;聚类分析

使用说明

数据来源:UCI 机器学习库 http://archive.ics.uci.edu/ml/datasets.html

配置相关: python3:pandas,numpy,matplotlib,seaborn

使用如图(1.1):

在这里插入图片描述

图 1.1 输入身体指数

结果如图(1.2):

图 1.2 返回预测结果

背景

根据美国预防疾病中心,现在美国有 1/7 的成年人患有糖尿病。根据增长趋势,到了 2050 年患糖尿病的人数将高达三分之一。我的父亲就常年受到糖尿病的困扰。但是根据专家研究,只要早点发现糖尿病的趋势,控制好饮食,就能杜绝糖尿病的加重甚至根治。

需求分析

用户可以在家里定时测量血压等身体数据,或者定期去医院体检获得数据后。 由医生或者病人自行把数据输入软件中,随后软件会根据数据分析预测后输出结果,判断是否患有糖尿病的风险,提醒患者到医院进行深度检查。

解决方案

从网上获取了两个数据集,一个是 age、 sex 、bmi、 map、 tc、 ldl、 hdl、 tch、 ltg、 glu 几个糖尿病专用指标与糖尿病指数的关系,因为这个数据集的预测结果不是二值,所以可以使用这个数据集训练线性回归预测。第二个数据集如图 2.1:

在这里插入图片描述

图 2.1 数据集部分

这几个指标,因为这个数据集结果是二值的——是否得了糖尿病,所以用聚类分析来预测。

线性回归方法:

首先验证数据的完整性。然后计算出相关系数矩阵系数越接近 1,数据集就越适合线性回归。

在这里插入图片描述

图 2.2 相关系数计算方法

接下来建立散点图来查看数据里的数据分析情况以及对相对应的线性情况,查看这些因素对 糖尿病指数有什么影响,将使用 seaborn 的 pairplot 来绘画。可以了解到不同的因素对糖尿病指数影响(置信度= 95 %),也可可以大致看出不同特征对于标签值的影响与相关关系在了解了数据的各种情况后需要对数据集建立模型

使用 train_test_split 函数来创建训练集和测试集,将训练集中的特征值与标签值放入 LinearRegression()模型中且使用 fit 函数进行训练,在模型训练完成之后会得到所对应的方程式(线性回归方程式)。然后使用测试集验证回归结果,发现拟合地很好。

之后只需要把用户传来地数据放到回归方程中然后得出糖尿病指数

聚类分析法:

数据分析,画出各特征值的直方图,看看有没有异常的数据。去掉异常数据(如血压等于零)

聚类分析不止一种,先测试看看哪种方法最好,这次实验使用了 7 种分类器,分别为:K-Nearest Neighbors, Support Vector Classifier, Logistic Regression, Gaussian Naive Bayes, Random Forest and Gradient Boost。

划分训练集和测试集,放入分类器中训练。然后用 K 折叠交叉验证(K-Fold Cross Validation)获得各分类器的准确率。

选用一个准确率最高的分类器,用 sklearn 的 GridSearchCV 调整参数,获得最优参数。最后使用最优参数获得分类器,处理用户输入的数据得到预测结果。

关键代码实现

线性回归:

检测数据和相关系数,判断是否适合线性回归。

在这里插入图片描述

图 5.1 计算相关系数矩阵代码

结果:

在这里插入图片描述

图 5.2 相关系数矩阵结果

训练集、测试集划分

在这里插入图片描述

图 5.3 训练集、测试集划分代码

做散点图看特征值对标签值的影响

在这里插入图片描述

图 5.4 做散点图代码

结果(部分):

在这里插入图片描述

图 5.5 某两个标签的散点图

开始线性回归,测试准确率,并获得预测结果
在这里插入图片描述

图 5.6 线性回归代码

结果:

在这里插入图片描述

图 5.7 线性回归参数

聚类分析:

查看直方图,检测异常值并且去除异常值

在这里插入图片描述
在这里插入图片描述

图 5.8 检查参数代码

使用 7 种分类器,并获得分类准确率:

在这里插入图片描述

图 5.9 配置 7 种聚类分析器的代码

结果:GB 准确率最高,用 GB 进行最终分类

在这里插入图片描述

图 5.10 各类分类器的准确率

使用 GridSearchCV 调整 GradientBoostingClassifier()的参数:

图 5.11 使用 GridSearchCV 关键代码

结果:返回最佳参数,用这些参数做最终的分类器分类

在这里插入图片描述

资源下载地址:https://download.csdn.net/download/sheziqiong/86792308
资源下载地址:https://download.csdn.net/download/sheziqiong/86792308

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/47352.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

糖尿病预测

人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站 https://www.captainai.net/shuai 一、糖尿病预测 1.1问题描述 糖尿病数据集是Sklearn 提供的数据集。它从442例糖尿病患者的资料中取10个特征:年龄…

使用 Python 机器学习的糖尿病预测模型

介绍 在本文中,我们将学习如何使用 Train Test Split 模型将数据集分为四个部分,开发预测模型,并通过用例分析预测和数据集。 用例——问题陈述 我们这篇文章的目标是预测患者是否患有糖尿病。我们所有的患者都是年轻女性,她们提供的数据(即怀孕次数、血糖水平和 BMI)…

FGF21 类似物 PF-05231023 改善糖尿病并发症

光感受器细胞中拥有大量的线粒体,以满足视网膜组织高代谢速率的需求。但是,在糖尿病人体内,高血糖引发的代谢异常会增加机体的氧化压力,从而加速视网膜的微血管病变。因此,增强光感受器细胞内的抗氧化通路可以阻止 DR …

保姆级人工智能学习成长路径

文章目录 0. 前言1. 第一阶段:编程语言学习2. 第二阶段:机器学习基本理论3. 第三阶段:深度学习理论与实战4. 第四阶段:细分领域深入学习5. 第五阶段:集大成者 0. 前言 最近有很多小伙伴想学习人工智能,其中…

图书馆小程序--Alpha迭代--第六周会议记录

1.小组介绍 组长:杨坤 小组成员:杨坤、何一鸣、韦灵雅、吴卿怡、许梦真、严影、林正远 2.流程图(分模块): 3. 目前的小组分工: 许梦真:登录,验证用户信息。 1.制定数据库存储用…

【音视频架构演进:边缘计算与云原生】

在过去的一年中,我们可以看到多媒体特别是音视频技术的能力在严峻的挑战下,为各行各业带来了巨大的变化。疫情过后,又会有哪些多媒体新技术、新实践呈现在大众的视野当中?为行业的发展与应用带来哪些新的趋势与机会? 1…

跟一线高手深聊关于边缘计算的一切

这次我们把边缘计算“一线高手”都邀请到了上海,在全球边缘计算大会上海站上,关于边缘计算的一切,你好奇的、想了解的,都可以聊聊! 1. 背景 今年三月份,十三届全国人大四次会议表决通过了关于国民经济和社会…

10月23日,相约全球边缘计算大会·上海站

全球边缘计算大会上海站,将于10月23日在上海召开。 本次大会,既有前沿技术研究分享,又有边缘计算落地实践、应用案例,是一次边缘计算领域的大型综合性会议。 早上设置了1个主会场,下午设置3个分会场,主要讨…

倒计时11天!全球边缘计算大会参会指南来啦!

全球边缘计算大会•上海站 参会指南 见证边缘的力量 10月23日(周六) 上海长宁区天山西路舜元会议中心(靠近虹桥) 目录 1.大会介绍 2.主办单位 3.峰会议程 4.交通指南 4.1 飞机 4.2 高铁 5.天气指南 6.签到&用餐指南 6.1 签到…

见证边缘的力量!全球边缘计算大会•上海站顺利召开!

2021年10月23日,以“见证边缘的力量”为主题的全球边缘计算大会在上海顺利召开!本次大会由边缘计算社区主办,并得到了阿里云、亚马逊云科技、EMQ、PPIO、网宿科技、阿普奇、视美泰、九州云、谐云科技等企业联合支持,共同推动边缘计…

LiveVideoStackCon2021音视频技术大会北京站开幕在即,精彩抢鲜看

10.29-10.30,LiveVideoStackCon 2021音视频技术大会北京站将在北京丽亭华苑酒店举行。16个技术专题,67场技术分享,77位讲师,近500位多媒体生态技术代表将齐聚本届LiveVideoStackCon。本届大会主题为:新技术&#xff0c…

深度好文推荐:互联网厂商,究竟是如何看待5G的?

内容来源:2021年10月23日,由边缘计算社区主办的全球边缘计算大会上海站圆满落幕。会上,虎牙5G首席架构师林正显受邀发表了主题为《浅谈5G及边缘计算接入网络的治理》的演讲。经过整理后,分享给大家。 整理编辑:上海大学…

LiveVideoStack公众号2021年终盘点

在2021年伊始,我们翻译过Tsahi Levent-Levi关于今年WebRTC流行趋势的文章,文中提到2021年将是“还债”的一年,此前所进行的系统设计、软件架构或软件开发都将迎来最终结果;同时它也将是服务及传输质量不断优化的一年。在供给侧长期…

解读李子柒品牌:重新认识IP消费品

NEW 关注Tech逆向思维视频号 最新视频→【日本富翁抵达宇宙还秀了朋友圈,普通人可以吗?】 出品|开菠萝财经 李子柒(本名李佳佳)与其所属公司微念的诉讼在即,舆论场上围绕双方孰是孰非的讨论已持续了近150天…

浅谈5G及边缘计算接入网络的治理

内容来源:2021年10月23日,由边缘计算社区主办的全球边缘计算大会上海站圆满落幕。会上,虎牙5G首席架构师林正显受邀发表了主题为《浅谈5G及边缘计算接入网络的治理》的演讲。 分享嘉宾:虎牙 5G首席架构师 林正显 整理编辑&#x…

2022秋软工实践 团队展示与选题报告

这个作业属于哪个课程Fzusdn这个作业要求在哪里2022秋软工实践 团队展示与选题报告这个作业的目标群策群力初步完成项目设计,有效交流带来团队友好氛围团队名称小心肝队组长学号042003121组员1学号032002221组员2学号032002343组员3学号032002401组员4学号032002422…

小心肝队-冲刺日志(第一天)

这个作业属于哪个课程fzusdn这个作业要求在哪里团队作业—alpha冲刺团队名称小心肝队这个作业的目标各成员明确任务、着手设计实现 冲刺进度 组员姓名完成任务完成时长所剩时长任务遇到的问题处理方式032002221刘博完成微信小程序首页布局编写,集成腾讯位置服务相…

小心肝队-冲刺日志(第二天)

这个作业属于哪个课程fzusdn这个作业要求在哪里团队作业—alpha冲刺团队名称小心肝队这个作业的目标建立仓库,框架搭建 冲刺进度 组员姓名完成任务完成时长所剩时长任务遇到的问题处理方式032002221刘博新增捐款、答题、校友风采路由,完成登陆逻辑编写…

小心肝队-冲刺日志(第十天)

这个作业属于哪个课程fzusdn这个作业要求在哪里团队作业—alpha冲刺团队名称小心肝队这个作业的目标软件测试,功能部署,上线申请 冲刺进度 组员姓名完成任务完成时长所剩时长任务遇到的问题处理方式032002221刘博对小程序界面进行优化,对常…

小心肝队-冲刺日志(第四天)

这个作业属于哪个课程fzusdn这个作业要求在哪里团队作业—alpha冲刺团队名称小心肝队这个作业的目标接口分配,数据库建立 冲刺进度 组员姓名完成任务完成时长所剩时长任务遇到的问题处理方式032002221刘博完成登陆、校友认证接口对接,实现对班级聚会、…