【机器学习】机器学习的基本分类-监督学习-Lasso 回归(Least Absolute Shrinkage and Selection Operator)

Lasso 回归是一种线性回归方法,通过引入 L_1​ 正则化(绝对值惩罚项)约束回归系数,既能解决多重共线性问题,又具有特征选择能力。


1. Lasso 回归的目标函数

Lasso 的目标是最小化以下损失函数:

\text{Lasso Loss} = \sum_{i=1}^n (y_i - \hat{y}_i)^2 + \lambda \sum_{j=1}^p |\beta_j|

其中:

  • \sum_{i=1}^n (y_i - \hat{y}_i)^2 是残差平方和。
  • \sum_{j=1}^p |\beta_j|L_1 正则化项。
  • λ > 0 是正则化强度的超参数,控制对回归系数的惩罚程度。

2. Lasso 的特点

  1. 特征选择

    • L_1​ 正则化能够将一些不重要的特征系数缩为 0,从而实现特征选择。
    • 这是 Lasso 和岭回归的最大区别,岭回归仅会缩小系数,但不会完全归零。
  2. 对多重共线性的处理

    • 当特征之间存在较强相关性时,Lasso 更倾向于保留一个特征,压缩其他特征的系数为 0,从而简化模型。

3. 数学解读

目标函数

Lasso 的优化目标:

\min_\beta \left\{ \| y - X\beta \|_2^2 + \lambda \| \beta \|_1 \right\}

  • \| y - X\beta \|_2^2​:拟合误差(最小化残差平方和)。
  • \| \beta \|_1 = \sum_{j=1}^p |\beta_j|:正则化项,控制模型复杂度。
几何解释
  • L_1 正则化将优化问题的约束区域限制在菱形L_1-范数球)内。
  • 菱形的顶点位于坐标轴上,因此 Lasso 具有将某些系数缩为 0 的特性。

4. 优缺点

优点
  1. 特征选择能力:可以将不重要的特征系数缩为 0,直接实现特征筛选。
  2. 降低模型复杂度:减少模型的变量数量,从而提高模型的可解释性。
  3. 解决多重共线性问题:对共线特征进行选择性保留,避免过拟合。
缺点
  1. 可能偏差较大:Lasso 会对所有系数施加惩罚,可能导致模型在某些情况下表现不佳。
  2. 不适合高维数据:当样本数小于特征数时,Lasso 的选择结果可能不稳定。
  3. 对正则化参数敏感:λ 的选择对模型性能影响较大。

5. Lasso 回归的实现

以下是 Python 中使用 scikit-learn 的实现示例:

from sklearn.linear_model import Lasso
from sklearn.model_selection import train_test_split
from sklearn.datasets import make_regression
from sklearn.metrics import mean_squared_error# 生成数据
X, y = make_regression(n_samples=100, n_features=10, noise=10, random_state=42)# 数据集划分
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)# 创建 Lasso 模型
lasso = Lasso(alpha=0.1)  # alpha 即 λ
lasso.fit(X_train, y_train)# 预测
y_pred = lasso.predict(X_test)# 评价
print("MSE:", mean_squared_error(y_test, y_pred))
print("回归系数:", lasso.coef_)

输出结果

MSE: 104.93221988874537
回归系数: [18.96025415 54.8553183   3.43132401 63.6082866  92.65442432 69.4820952984.42789762  8.49332936  2.90087787 71.0628166 ]

6. 正则化参数 λ 的调优

Lasso 中的超参数 λ(在 scikit-learn 中是 alpha)需要通过交叉验证选择。可以使用 LassoCV 进行自动调优:

from sklearn.model_selection import train_test_split
from sklearn.datasets import make_regression
from sklearn.linear_model import LassoCV# 生成数据
X, y = make_regression(n_samples=100, n_features=10, noise=10, random_state=42)# 数据集划分
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)# 自动选择最佳 λ
lasso_cv = LassoCV(alphas=[0.1, 1.0, 10.0], cv=5)  # 5 折交叉验证
lasso_cv.fit(X_train, y_train)# 最佳正则化参数
print("最佳 λ:", lasso_cv.alpha_)# 使用最佳参数的回归系数
print("回归系数:", lasso_cv.coef_)

输出结果

最佳 λ: 0.1
回归系数: [18.96025415 54.8553183   3.43132401 63.6082866  92.65442432 69.4820952984.42789762  8.49332936  2.90087787 71.0628166 ]

7. Lasso 与岭回归的比较

方法正则化类型特点应用场景
岭回归L_2​ 范数收缩系数,解决多重共线性问题特征数量较多,但不需要特征选择时使用
Lasso 回归L_1 范数稀疏化系数,具有特征选择能力需要减少特征数量或增强模型解释性时
ElasticNetL_1 + L_2​ 范数综合岭回归和 Lasso 的优点高维数据特征筛选且有多重共线性时

8. 应用场景

  1. 基因数据分析:处理高维稀疏数据,选择关键基因。
  2. 金融数据建模:选择重要指标,如宏观经济特征对市场走势的影响。
  3. 图像处理:降维和稀疏特征提取。

 Lasso 回归是一种强大且解释性好的线性模型,通过 L_1 正则化实现特征选择和降维,适合高维但稀疏的数据集。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/487225.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何防御ARP欺骗 保护IP安全

在数字化浪潮席卷全球的今天,网络安全威胁如同暗流涌动,时刻考验着我们的防范能力。其中,ARP欺骗攻击作为一种隐蔽性强、成本低廉且危害严重的网络攻击手段,成为众多网络安全事件中的一颗“毒瘤”。那么我们究竟是如何防御ARP欺骗…

子网划分实例

看到有人问这个问题: 想了一下,这是一个子网划分的问题: 处理方法如图: 这是一个子网划分的问题 设备1用三层交换机,端口设置为路由模式,设备2和设备3为傻瓜交换机模式 设备2和设备3下挂设备都是26为掩码&…

消息中间件-Kafka3-kafkaJavaClient小例

消息中间件-Kafka3-kafkaJavaClient小例 Kafak Java Client private static final String KAFKA_TOPIC "kafak-test";private static String bootstrapServers "localhost:9092";private static AdminClient client null;static {Properties config n…

怎么获取Java高并发经验与系统设计技能?

如何获得高并发经验? 这是系统邀请我回答的一个问题,由此也引发了我的一些思考:为什么人人都想要获得高并发经验;想拥有高并发系统设计技能? 其原因LZ认为主要有以下三点: 涨薪:有高并发系统设…

【Java】类似王者荣耀游戏

r77683962/WangZheYouDianRongYao 运行效果图: 类似王者荣耀游戏运行效果图_哔哩哔哩_bilibili

HTML Input 文件上传功能全解析:从基础到优化

🤍 前端开发工程师、技术日更博主、已过CET6 🍨 阿珊和她的猫_CSDN博客专家、23年度博客之星前端领域TOP1 🕠 牛客高级专题作者、打造专栏《前端面试必备》 、《2024面试高频手撕题》 🍚 蓝桥云课签约作者、上架课程《Vue.js 和 E…

【项目实战】基于python+爬虫的电影数据分析及可视化系统

注意:该项目只展示部分功能,如需了解,文末咨询即可。 本文目录 1.开发环境2 系统设计 2.1 设计背景2.2 设计内容 3 系统页面展示 3.1 用户页面3.2 后台页面3.3 功能展示视频 4 更多推荐5 部分功能代码 5.1 爬虫代码5.2 电影信息代码 1.开发环…

生活大爆炸版石头剪刀布(洛谷P1328)

生活大爆炸版石头剪刀布(洛谷P1328) [NOIP2014 提高组] 前言: 由于洛谷发布题解有限制,所以在CSDN上发布洛谷题解。 所有题解均是Java语言, 但是思路是相同的 每篇都是刷题日常,尽量讲清楚算法逻辑。 希望有问题还请大佬们指导! …

Linux安装Python2.7.5(centos自带同款)

卸载已安装的python,防止版本兼容问题 rpm -qa|grep python|xargs rpm -ev --allmatches --nodeps 删除残余文件 whereis python |xargs rm -frv 安装前提是已安装gcc和g gcc --version g --version 下载安装python2.7.5 https://www.python.org/downloads/release/pyt…

【CKA】Kubernetes(k8s)认证之CKA考题讲解

CKA考题讲解 0.考试101 0.1 kubectl命令⾃动补全 在 bash 中设置当前 shell 的⾃动补全&#xff0c;要先安装 bash-completion 包。 echo "source <(kubectl completion bash)" >> ~/.bashrc还可以在补全时为 kubectl 使⽤⼀个速记别名&#xff1a; al…

微信小程序uni-app+vue3实现局部上下拉刷新和scroll-view动态高度计算

微信小程序uni-appvue3实现局部上下拉刷新和scroll-view动态高度计算 前言 在uni-appvue3项目开发中,经常需要实现列表的局部上下拉刷新功能。由于网上相关教程较少且比较零散,本文将详细介绍如何使用scroll-view组件实现这一功能,包括动态高度计算、下拉刷新、上拉加载等完整…

PHP语法学习(第六天)-条件语句,关联数组

&#x1f4a1;依照惯例&#xff0c;回顾一下昨天讲的内容 PHP语法学习(第五天)主要讲了PHP中的常量和运算符的运用。 &#x1f525; 想要学习更多PHP语法相关内容点击“PHP专栏” 今天给大家讲课的角色是&#x1f34d;菠萝吹雪&#xff0c;“我菠萝吹雪吹的不是雪&#xff0c;而…

java中的数组(2)

大家好&#xff0c;我们今天继续来看java中数组这方面的知识点&#xff0c;那么话不多说&#xff0c;我们直接开始。 一.数组的使用 1.数组中元素访问 数组在内存中是一段连续的空间,空间的编号都是从0开始的,依次递增,数组可以通过下标访问其任意位置的元素. 也可以进行修改…

数据结构 (36)各种排序方法的综合比较

一、常见排序方法分类 插入排序类 直接插入排序&#xff1a;通过构建有序序列&#xff0c;对于未排序数据&#xff0c;在已排序序列中从后向前扫描&#xff0c;找到相应位置并插入。希尔排序&#xff1a;是插入排序的一种改进版本&#xff0c;先将整个待排序的记录序列分割成为…

计算机网络安全 —— 实体鉴别与生成大随机数

一、实体鉴别# ​ 实体鉴别&#xff08;经常简称为鉴别&#xff09;就是一方验证另一方身份的技术。一个实体可以是人、客户/服务器进程等。这里仅讨论如何鉴别通信对端 实体的身份&#xff0c;即验证正在通信的对方确实是所认为的通信实体&#xff0c;而不是其他的假冒者。进…

【SpringBug】lombok插件中@Data不能生成get和set方法

一&#xff1a;问题引入 可以看到我们在类UserInfo上写了Data注解&#xff0c;但是在测试文件中生成的反编译target文件Us二Info中没有get和set方法 二&#xff1a;解决方法 1&#xff1a;Spring升级问题&#xff08;解决了我的问题&#xff09; 原因是Spring官方进行了升级…

Unity 基于Collider 组件在3D 物体表面放置3D 物体

实现 从鼠标点击的屏幕位置发送射线&#xff0c;以射线监测点击到的物体&#xff0c;根据点击物体的法线向量调整放置物体的位置及朝向。 Ray ray Camera.main.ScreenPointToRay(Input.mousePosition); if (Physics.Raycast(ray, out RaycastHit hit, 100)) {obj.transform.…

宝塔内设置redis后,项目以及RedisDesktopManager客户端连接不上!

项目展现问题&#xff1a; Unable to connect to Redis; nested exception is io.lettuce.core.RedisConnectionException: Unable to connect to xxx.宝塔外链.ip.xxxx:6379 redis客户端连接失败&#xff1a; 1、宝塔中确认redis端口已放行 2、修改redis的配置 bind&#x…

2024 年 11 月区块链游戏研报:牛市加持下的 GameFi 破局之路

2024 年 11 月区块链游戏研报 作者&#xff1a;Stella L (stellafootprint.network) 数据来源&#xff1a;Footprint Analytics 区块链游戏 Research 页面 2024 年 11 月 Web3 游戏行业市场增长显著但大规模采用策略仍在演进。随着比特币创下历史新高并接近 10 万美元里程碑…

[软件工程]十.可靠性工程(reliable engineering)

1.什么是可靠性工程 我们希望软件在给定的时间内&#xff0c;运行的时候不会崩溃或者发生失效&#xff0c;同时能保护我们的数据和个人信息。我们要能够信任我们所使用的软件&#xff0c;这意味着软件必须是可靠的。可靠性&#xff08;reliability&#xff09;&#xff1a;系统…