数据挖掘——糖尿病预测

一、问题描述

        糖尿病数据集是Sklearn 提供的数据集。它从442例糖尿病患者的资料中取10个特征:年龄、性别、体重、血压和6个血清测试量值,以及患者在一年后疾病发展的量化值(标签)。

二、实验目的

        根据上述10个特征,预测病情发展的量化值。

三、实验内容

        包括数据导入、数据预处理、算法描述、主要代码。

四、实验结果及分析

结论:正规方程和Scikit-learn的模型预测比岭回归算法的预测模型好

五、完整代码

机器学习GitHub:https://github.com/wanglei18/machine_learning

ridge_regression.py

import numpy as npclass RidgeRegression:   def __init__(self, Lambda):self.Lambda = Lambdadef fit(self, X, y):m, n = X.shaper = np.diag(self.Lambda * np.ones(n))  self.w = np.linalg.inv(X.T.dot(X) + r).dot(X.T).dot(y)return def predict(self, X):return X.dot(self.w)
# 第二次作业.2部分
import sklearn.datasets
import numpy as np
import machine_learning.linear_regression.lib.linear_regression as lib
import machine_learning.linear_regression.lib.ridge_regression as Rg
from sklearn import linear_model
from sklearn.preprocessing import PolynomialFeatures
from sklearn.model_selection import train_test_splitdef process_features(X):m, n = X.shapeX = np.c_[np.ones((m, 1)), X]return Xnp.random.seed(100)
X, y = sklearn.datasets.load_diabetes(return_X_y = True)#1.正规方程求解法
x_train, x_test, y_train, y_test = train_test_split(X, y, test_size=0.4, random_state=5)
x_train = process_features(x_train)             #特征处理
x_test = process_features(x_test)model = lib.LinearRegression()
model.fit(x_train, y_train)                     #训练数据y_pred=model.predict(x_test)
mse = lib.mean_squared_error(y_test,y_pred)     #h的均方误差
r2 = lib.r2_score(y_test,y_pred)                #R^2的决定系数
print("mse={}andr2={}".format(mse,r2))'''
#2.岭回归算法
x_train, x_test, y_train, y_test = train_test_split(X, y, test_size=0.4, random_state=5)
polt = PolynomialFeatures(degree = 2)
x_poly = polt.fit_transform(x_train)            #特征处理
model = Rg.RidgeRegression(Lambda = 0.2)
model.fit(x_poly,y_train)                       #训练数据x_test = polt.fit_transform(x_test)             #X特征标准化
y_pred = model.predict(x_test)                  #预测数据mse = lib.mean_squared_error(y_test,y_pred)     #h的均方误差
r2 = lib.r2_score(y_test,y_pred)                #R^2的决定系数
print("mse={}andr2={}".format(mse,r2))
''''''
#3.Scikit-learn
x_train, x_test, y_train, y_test = train_test_split(X, y, test_size=0.4, random_state=5)x_train = process_features(x_train)         #特征处理
x_test = process_features(x_test)           #h的均方误差
clf = linear_model.LinearRegression()
clf.fit(x_train, y_train)                   #训练数据y_pred=clf.predict(x_test)                  #预测数据
mse = lib.mean_squared_error(y_test,y_pred) #h的均方误差
r2 = lib.r2_score(y_test,y_pred)            #R^2的决定系数
print("mse={}andr2={}".format(mse,r2))
'''

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/47353.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于Python实现的糖尿病预测系统

资源下载地址:https://download.csdn.net/download/sheziqiong/86792308 资源下载地址:https://download.csdn.net/download/sheziqiong/86792308 基于Python设计的预测糖尿病 摘要和关键词 本次实验的主要内容是使用回归分析和聚类分析来预测某人患糖…

糖尿病预测

人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站 https://www.captainai.net/shuai 一、糖尿病预测 1.1问题描述 糖尿病数据集是Sklearn 提供的数据集。它从442例糖尿病患者的资料中取10个特征:年龄…

使用 Python 机器学习的糖尿病预测模型

介绍 在本文中,我们将学习如何使用 Train Test Split 模型将数据集分为四个部分,开发预测模型,并通过用例分析预测和数据集。 用例——问题陈述 我们这篇文章的目标是预测患者是否患有糖尿病。我们所有的患者都是年轻女性,她们提供的数据(即怀孕次数、血糖水平和 BMI)…

FGF21 类似物 PF-05231023 改善糖尿病并发症

光感受器细胞中拥有大量的线粒体,以满足视网膜组织高代谢速率的需求。但是,在糖尿病人体内,高血糖引发的代谢异常会增加机体的氧化压力,从而加速视网膜的微血管病变。因此,增强光感受器细胞内的抗氧化通路可以阻止 DR …

保姆级人工智能学习成长路径

文章目录 0. 前言1. 第一阶段:编程语言学习2. 第二阶段:机器学习基本理论3. 第三阶段:深度学习理论与实战4. 第四阶段:细分领域深入学习5. 第五阶段:集大成者 0. 前言 最近有很多小伙伴想学习人工智能,其中…

图书馆小程序--Alpha迭代--第六周会议记录

1.小组介绍 组长:杨坤 小组成员:杨坤、何一鸣、韦灵雅、吴卿怡、许梦真、严影、林正远 2.流程图(分模块): 3. 目前的小组分工: 许梦真:登录,验证用户信息。 1.制定数据库存储用…

【音视频架构演进:边缘计算与云原生】

在过去的一年中,我们可以看到多媒体特别是音视频技术的能力在严峻的挑战下,为各行各业带来了巨大的变化。疫情过后,又会有哪些多媒体新技术、新实践呈现在大众的视野当中?为行业的发展与应用带来哪些新的趋势与机会? 1…

跟一线高手深聊关于边缘计算的一切

这次我们把边缘计算“一线高手”都邀请到了上海,在全球边缘计算大会上海站上,关于边缘计算的一切,你好奇的、想了解的,都可以聊聊! 1. 背景 今年三月份,十三届全国人大四次会议表决通过了关于国民经济和社会…

10月23日,相约全球边缘计算大会·上海站

全球边缘计算大会上海站,将于10月23日在上海召开。 本次大会,既有前沿技术研究分享,又有边缘计算落地实践、应用案例,是一次边缘计算领域的大型综合性会议。 早上设置了1个主会场,下午设置3个分会场,主要讨…

倒计时11天!全球边缘计算大会参会指南来啦!

全球边缘计算大会•上海站 参会指南 见证边缘的力量 10月23日(周六) 上海长宁区天山西路舜元会议中心(靠近虹桥) 目录 1.大会介绍 2.主办单位 3.峰会议程 4.交通指南 4.1 飞机 4.2 高铁 5.天气指南 6.签到&用餐指南 6.1 签到…

见证边缘的力量!全球边缘计算大会•上海站顺利召开!

2021年10月23日,以“见证边缘的力量”为主题的全球边缘计算大会在上海顺利召开!本次大会由边缘计算社区主办,并得到了阿里云、亚马逊云科技、EMQ、PPIO、网宿科技、阿普奇、视美泰、九州云、谐云科技等企业联合支持,共同推动边缘计…

LiveVideoStackCon2021音视频技术大会北京站开幕在即,精彩抢鲜看

10.29-10.30,LiveVideoStackCon 2021音视频技术大会北京站将在北京丽亭华苑酒店举行。16个技术专题,67场技术分享,77位讲师,近500位多媒体生态技术代表将齐聚本届LiveVideoStackCon。本届大会主题为:新技术&#xff0c…

深度好文推荐:互联网厂商,究竟是如何看待5G的?

内容来源:2021年10月23日,由边缘计算社区主办的全球边缘计算大会上海站圆满落幕。会上,虎牙5G首席架构师林正显受邀发表了主题为《浅谈5G及边缘计算接入网络的治理》的演讲。经过整理后,分享给大家。 整理编辑:上海大学…

LiveVideoStack公众号2021年终盘点

在2021年伊始,我们翻译过Tsahi Levent-Levi关于今年WebRTC流行趋势的文章,文中提到2021年将是“还债”的一年,此前所进行的系统设计、软件架构或软件开发都将迎来最终结果;同时它也将是服务及传输质量不断优化的一年。在供给侧长期…

解读李子柒品牌:重新认识IP消费品

NEW 关注Tech逆向思维视频号 最新视频→【日本富翁抵达宇宙还秀了朋友圈,普通人可以吗?】 出品|开菠萝财经 李子柒(本名李佳佳)与其所属公司微念的诉讼在即,舆论场上围绕双方孰是孰非的讨论已持续了近150天…

浅谈5G及边缘计算接入网络的治理

内容来源:2021年10月23日,由边缘计算社区主办的全球边缘计算大会上海站圆满落幕。会上,虎牙5G首席架构师林正显受邀发表了主题为《浅谈5G及边缘计算接入网络的治理》的演讲。 分享嘉宾:虎牙 5G首席架构师 林正显 整理编辑&#x…

2022秋软工实践 团队展示与选题报告

这个作业属于哪个课程Fzusdn这个作业要求在哪里2022秋软工实践 团队展示与选题报告这个作业的目标群策群力初步完成项目设计,有效交流带来团队友好氛围团队名称小心肝队组长学号042003121组员1学号032002221组员2学号032002343组员3学号032002401组员4学号032002422…

小心肝队-冲刺日志(第一天)

这个作业属于哪个课程fzusdn这个作业要求在哪里团队作业—alpha冲刺团队名称小心肝队这个作业的目标各成员明确任务、着手设计实现 冲刺进度 组员姓名完成任务完成时长所剩时长任务遇到的问题处理方式032002221刘博完成微信小程序首页布局编写,集成腾讯位置服务相…

小心肝队-冲刺日志(第二天)

这个作业属于哪个课程fzusdn这个作业要求在哪里团队作业—alpha冲刺团队名称小心肝队这个作业的目标建立仓库,框架搭建 冲刺进度 组员姓名完成任务完成时长所剩时长任务遇到的问题处理方式032002221刘博新增捐款、答题、校友风采路由,完成登陆逻辑编写…

小心肝队-冲刺日志(第十天)

这个作业属于哪个课程fzusdn这个作业要求在哪里团队作业—alpha冲刺团队名称小心肝队这个作业的目标软件测试,功能部署,上线申请 冲刺进度 组员姓名完成任务完成时长所剩时长任务遇到的问题处理方式032002221刘博对小程序界面进行优化,对常…