R语言Lasso回归模型变量选择和糖尿病发展预测模型

全文链接:http://tecdat.cn/?p=22721

Lease Absolute Shrinkage and Selection Operator(LASSO)在给定的模型上执行正则化和变量选择点击文末“阅读原文”获取完整代码数据)。

根据惩罚项的大小,LASSO将不太相关的预测因子缩小到(可能)零。因此,它使我们能够考虑一个更简明的模型。在这组练习中,我们将在R中实现LASSO回归。

相关视频

练习1

加载糖尿病数据集。这有关于糖尿病的病人水平的数据。数据为n = 442名糖尿病患者中的每个人获得了10个基线变量、年龄、性别、体重指数、平均血压和6个血清测量值,以及感兴趣的反应,即一年后疾病进展的定量测量。"

接下来,加载包用来实现LASSO。

head(data)

877e1155f60f6ddae217c6fab596046c.png

向下滑动查看结果▼

练习2

数据集有三个矩阵x、x2和y。x是较小的自变量集,而x2包含完整的自变量集以及二次和交互项。
检查每个预测因素与因变量的关系。生成单独的散点图,所有预测因子的最佳拟合线在x中,y在纵轴上。用一个循环来自动完成这个过程。

summary(x)

4150f0ce14544d6c29266f783e65851b.png

for(i in 1:10){plot(x\[,i\], y)abline(lm(y~x\[,i\])
}

26b56504522297875f8bce16ba5fc2c8.png

向下滑动查看结果▼



点击标题查阅往期内容

82ee71a19bf7e944382dd1861dfe15ea.jpeg

基于R语言实现LASSO回归分析

outside_default.png

左右滑动查看更多

outside_default.png

01

75add135cb4227c8c855f9bb67fecb24.png

02

2be7300f0fd18896d025dcbe2500512e.png

03

3994004f3f6db8cf5f312eee8a163000.png

04

d21bff6cddf5a4312fc023ad64732264.png

练习3

使用OLS将y与x中的预测因子进行回归。我们将用这个结果作为比较的基准。

lm(y ~ x)

4cd56e82fbb5ece34ff0563fa39c47eb.png

向下滑动查看结果▼

练习4

绘制x的每个变量系数与β向量的L1准则的路径。该图表明每个系数在哪个阶段缩减为零。

plot(model_lasso)

01eb08763e6bff83090db662a1330cfb.png

向下滑动查看结果▼

练习5

得到交叉验证曲线和最小化平均交叉验证误差的lambda的值。

plot(cv_fit)

a12aca60fd4c2388bf09c871b6e4c9b7.png

4abbe374c01053c904f8451b374aaedb.png

向下滑动查看结果▼

练习6

使用上一个练习中的lambda的最小值,得到估计的β矩阵。注意,有些系数已经缩减为零。这表明哪些预测因子在解释y的变化方面是重要的。

> fit$beta

f5481b6f5ab28f5b8749a4fc83b547e6.png

向下滑动查看结果▼

练习7

为了得到一个更简明的模型,我们可以使用一个更高的λ值,即在最小值的一个标准误差之内。用这个lambda值来得到β系数。注意,现在有更多的系数被缩减为零。

lambda.1se

81cdc3a92a10501234dd8b0feed945fc.png

beta

6849b5e4ca649d2650a04c11e5376867.png

向下滑动查看结果▼

练习8

如前所述,x2包含更多的预测因子。使用OLS,将y回归到x2,并评估结果。

summary(ols2)

481a696ba584a72ea7112d0e0c6b2a01.png

cdde815c67fb557b47aad3eda00c4f5e.png

向下滑动查看结果▼

练习9

对新模型重复练习-4。

lasso(x2, y)plot(model_lasso1)

0c2b10ec42729bd82245021d68852cc6.png

向下滑动查看结果▼

练习10

对新模型重复练习5和6,看看哪些系数被缩减为零。当有很多候选变量时,这是缩小重要预测变量的有效方法。

plot(cv_fit1)

a0d60d8f7781127f729e6b1e06a83474.png

beta

6612308f1a16ffa304edbd79ff7c7e81.png

e0f2a2e5bee484325728bd18adc29a72.png

向下滑动查看结果▼


333b4782c838f8b2b1fbaf9523a41133.jpeg

本文摘选R语言Lasso回归模型变量选择和糖尿病发展预测模型,点击“阅读原文”获取全文完整资料。

f8008abeab614bc1c81f175d04d103ce.jpeg

本文中分析的数据分享到会员群,扫描下面二维码即可加群!

1f82539c33fe20d8ce66a2336537c20c.png


点击标题查阅往期内容

【视频】Lasso回归、岭回归正则化回归数学原理及R软件实例

群组变量选择、组惩罚group lasso套索模型预测新生儿出生体重风险因素数据和交叉验证、可视化

【视频】Lasso回归、岭回归等正则化回归数学原理及R语言实例

R语言Lasso回归模型变量选择和糖尿病发展预测模型

用LASSO,adaptive LASSO预测通货膨胀时间序列

MATLAB用Lasso回归拟合高维数据和交叉验证

群组变量选择、组惩罚group lasso套索模型预测新生儿出生体重风险因素数据和交叉验证、可视化

高维数据惩罚回归方法:主成分回归PCR、岭回归、lasso、弹性网络elastic net分析基因数据

Python高维变量选择:SCAD平滑剪切绝对偏差惩罚、Lasso惩罚函数比较

R使用LASSO回归预测股票收益

广义线性模型glm泊松回归的lasso、弹性网络分类预测学生考试成绩数据和交叉验证

贝叶斯分位数回归、lasso和自适应lasso贝叶斯分位数回归分析免疫球蛋白、前列腺癌数据

R语言RSTAN MCMC:NUTS采样算法用LASSO 构建贝叶斯线性回归模型分析职业声望数据

r语言中对LASSO回归,Ridge岭回归和弹性网络Elastic Net模型实现

R语言高维数据惩罚回归方法:主成分回归PCR、岭回归、lasso、弹性网络elastic net分析基因数据(含练习题)

广义线性模型glm泊松回归的lasso、弹性网络分类预测学生考试成绩数据和交叉验证

贝叶斯分位数回归、lasso和自适应lasso贝叶斯分位数回归分析免疫球蛋白、前列腺癌数据

R语言RSTAN MCMC:NUTS采样算法用LASSO 构建贝叶斯线性回归模型分析职业声望数据

r语言中对LASSO回归,Ridge岭回归和弹性网络Elastic Net模型实现

R语言高维数据惩罚回归方法:主成分回归PCR、岭回归、lasso、弹性网络elastic net分析基因数据(含练习题)

Python中LARS和Lasso回归之最小角算法Lars分析波士顿住房数据实例

R语言自适应LASSO 多项式回归、二元逻辑回归和岭回归应用分析

R语言惩罚logistic逻辑回归(LASSO,岭回归)高维变量选择的分类模型案例

Python中的Lasso回归之最小角算法LARS

r语言中对LASSO回归,Ridge岭回归和弹性网络Elastic Net模型实现

R语言实现LASSO回归——自己编写LASSO回归算法

r语言中对LASSO回归,Ridge岭回归和Elastic Net模型实现

R使用LASSO回归预测股票收益

R语言如何和何时使用glmnet岭回归

R语言中的岭回归、套索回归、主成分回归:线性模型选择和正则化

Python中的ARIMA模型、SARIMA模型和SARIMAX模型对时间序列预测

R语言arima,向量自回归(VAR),周期自回归(PAR)模型分析温度时间序列

【视频】Python和R语言使用指数加权平均(EWMA),ARIMA自回归移动平均模型预测时间序列

Python用ARIMA和SARIMA模型预测销量时间序列数据

59ca03e9026e1ae32d7e26033c298358.png

3b2f1c7e66cc4536e04783ef66881fb2.jpeg

12f57eedf482ddbfbd6709128900a7c2.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/39752.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

分布滞后模型与自回归模型

分布滞后模型与自回归模型 第一节 滞后效应与滞后变量模型 一、经济活动中的滞后现象 一般说来,解释变量(自变量)对被解释变量(因变量)的影响不可能在短时间内完成,在这一过程通常存在时间滞后&#xff…

stata学习笔记|受限被解释变量

受限被解释变量类型 普通断尾随机变量——断尾回归:对于分析的样本解释变量有上限或者下限的要求零断尾计数数据——零断尾泊松回归和负二项回归:正整数偶然断尾(自选择问题)——样本选择模型:因为某些原因&#xff0…

回归模型的变量筛选与预测

我眼中的回归变量筛选 变量筛选是回归建模过程关键的一步,由于变量间的相关性,必然会导致不同的筛选方法得到不同的模型。 在所有变量筛选方法中,向前法、向后法以及逐步回归法的使用频率较高,因为这类方法操作简单、运算速度快&a…

回归模型中的哑变量

在构建回归模型时,如果自变量X为连续性变量,回归系数β可以解释为:在其他自变量不变的条件下,X每改变一个单位,所引起的因变量Y的平均变化量;如果自变量X为二分类变量,例如是否饮酒(…

简单线性回归模型

简单线性回归模型 研究经济变量之间相互数量关系最基本的方法之一是回归分析。在回归分析中,只有一个解释变量的线性回归模型是最简单的,称为简单线性回归模型或一元线性回归模型。本文主要从最简单的一元线性回归模型入手,讨论在基本假定满…

多元线性回归模型

多元线性回归模型 由于实际问题的复杂性,一个经济变量可能会同多个变量相联系。例如,消费者对某种商品的需求量不仅取决于该种商品价格的影响,而且可能受消费者的收入水平、其他代用商品的价格等因素的影响。因此,有必要将只要有…

快讯 | 机器人加班也会“猝死”,连续工作 20 小时倒地不起;马斯克暗示或起诉 OpenAI

一分钟速览新闻点 滴滴自动驾驶卡车 KargoBot 亮相上海车展 华为战略研究院院长周红:AI发展还面临三个重要挑战 路特斯发布全球首款量产“闪充机器人” 马斯克暗示或起诉 OpenAI 业内最新报告:ChatGPT 或会暴露企业机密信息 机器人加班也会“猝死”…

【科研资讯】嵌入织物的纤维泵和液体压电材料首现,全钙钛矿叠层太阳电池和高温超导电动悬浮取得新进展...

点击蓝字 关注我们 新的一天从研究资讯开始 DAILY NEWS 聚焦国内外 今日研究资讯 DAY BY DAY 2023年 4月6日 前言 在这里, 为你提供最新的科研资讯, 实验与热点你缺一不可! 1、首个嵌入织物的纤维泵制成 美国工程师设计了一种新型纳米颗粒&am…

国家数据局成立将带来大数据的五个发展趋势

大家好,我是独孤风。10年的时间我通过自学从港口工人转型成为了国企的大数据负责人。并注册大数据流动公众号,持续的进行文章创作,很高兴能在这里与大家相识~ 昨天的朋友圈相信大家都被这条振奋人心的消息刷屏了。 组建国家数据局&#xff01…

【技术简史】人类技术史:概念,本质,演化史,影响,未来挑战与发展前景

人类技术史:概念,本质,演化史,影响,未来挑战与发展前景 文章目录 人类技术史:概念,本质,演化史,影响,未来挑战与发展前景人类技术史:概念与本质人类技术史:演化史原始时期古代时期中世纪时期工业革命时期现代时期人类技术史:影响生产力水平社会结构生态环境人类技…

正向代理反向代理,清晰直观

大前提是什么?网络啊!局域网,公网啊! 表现是什么?请求 响应啊! 为什么代理?互通啊,隐藏啊 正向代理:代理客户端 多余的解释:你在局域网内(dddd&…

【网络】正向代理和反向代理

关于网络的基本知识: 为什么百度查到的ip和ipconfig查到的不一样;详解公网Ip和私网ip;详解网络分类ABC; 内网访问外网和外网访问内网的原理 代理 什么是代理?代理其实就相当于交易…

Traefik 一个反向代理的新工具

由于工作需要最近试用了几个反向路由的开源项目,Traefik就是其中之一。 一,Traefik 是干什么用的 简单来说它就是用来作反向代理和负载均衡的,比较适用于微服务化的场景,支持多种分布式的Key-Value存储系统,支持容器技…

Invalid block tag on line 16: 'endblock', expected 'endblock' or 'endblock topfiles'. Did you forget

Invalid block tag on line 16: ‘endblock’, expected ‘endblock’ or ‘endblock topfiles’. Did you forget to register or load this tag? 报错是因为代码没有注意空格问题。 改成缩进一格就行。

Your Bitbucket account has been locked. To unlock it and log in again you must solve a CAPTCHA.

Your Bitbucket account has been locked. To unlock it and log in again you must solve a CAPTCHA. 使用sourceTree拉取代码是出现这个错误,原因是账号对应的密码不对,需要修改window保存的账号名与密码 解决办法: 1,打开控…

启用或禁用更改块跟踪 (Changed Block Tracking, CBT)的两种方式

启用或禁用更改块跟踪 (Changed Block Tracking, CBT) 的两种方式 由于VMware提供了方便的数据块修改追踪(Changed Block Tracking,CBT)技术,为虚拟机增量备份提供了基础,除第一次备份必须完整备份与传输整个VM数据外&…

通过命令行关闭Bitlocker

cmd中输入以下命令关闭 manage-bde -off C: 但是有时候出现如下提示: 此时需要先执行如下命令:(系统分区不是C的话更改下面的盘符) manage-bde -autounlock -ClearAllKeys c: 然后再执行即可 manage-bde -off C: 提示解密进行…

vlock -- 锁定你的终端

原贴:http://www.linuxgem.org/2008/9/18/vlcok.5457.html vlock -- 锁定你的终端 galeki posted 2008年9月18日 01:01 in 实用软件 with tags vlock 终端 , 844 阅读 Vifm -- 支持 Vi 快捷键的文件管理器 基本上每个桌面环境下,都有方便的锁屏功能&am…

BlockChain-Account_TakeOver

题目描述 ECDSA 签名 假设我们的私钥为 d A d_A dA​而公钥为 Q A Q_A QA​, Q A d A ⋅ G Q_Ad_A\cdot G QA​dA​⋅G,接下来就是签名的过程,要签名的消息为 m m m 取 e H A S H ( m ) e HASH(m) eHASH(m)取 e e e的左边的 L n L_n L…

02_Lock锁

首先看一下JUC的重磅武器——锁(Lock) 相比同步锁,JUC包中的Lock锁的功能更加强大,它提供了各种各样的锁(公平锁,非公平锁,共享锁,独占锁……),所以使用起来…