【python】逐步回归(多元线性回归模型中的应用)

文章目录

  • 前言
  • 一、逐步回归
    • 1. 前进法(Forward Selection)
    • 2. 后退法(Backward Elimination)
    • 3. 逐步回归法(Stepwise Regression)
  • 二、示例
  • 三、代码实现----python


前言

  • Matlab中逐步回归的实现可以使用 Matlab 的 stepwise 函数,本文主要讨论逐步回归如何在 python 中使用。
  • 思路参考视频:
    https://www.bilibili.com/video/BV1kU4y1R7o2/?spm_id_from=333.1007.top_right_bar_window_history.content.click&vd_source=67471d3a1b4f517b7a7964093e62f7e6

一、逐步回归

  • 逐步回归(Stepwise Regression)是一种选择统计模型的技术,用于找到最优模型,即通过添加或移除变量来选择合适的特征。
  • 逐步回归主要有三种方法:前进法(Forward Selection)、后退法(Backward Elimination)和逐步回归法(Stepwise Regression)。下面是对这三种方法的简单介绍:

1. 前进法(Forward Selection)

概念

  • 前进法从一个空模型开始,即最初没有任何预测变量。
  • 然后逐步添加预测变量,每次添加一个变量,使得新模型的评价指标(如AIC、BIC、R^2等)最优。
  • 继续这个过程,直到添加任何更多的变量都不能显著提高模型的性能。

步骤

  1. 从空模型开始,不包含任何预测变量。
  2. 评估每个未加入模型的变量,将使模型性能最优的变量加入模型。
  3. 重复步骤2,直到添加任何变量都不能显著改善模型。

2. 后退法(Backward Elimination)

概念

  • 后退法从包含所有预测变量的模型开始。
  • 然后逐步移除预测变量,每次移除一个变量,使得新模型的评价指标最优。
  • 继续这个过程,直到移除任何更多的变量都不能显著提高模型的性能。

步骤

  1. 从包含所有可能的预测变量的全模型开始。
  2. 评估每个变量的显著性,移除最不显著的变量(即对模型贡献最小的变量)。
  3. 重复步骤2,直到移除任何变量都不能显著改善模型。

3. 逐步回归法(Stepwise Regression)

概念

  • 逐步回归法结合了前进法和后退法,既可以添加变量也可以移除变量。
  • 每次步骤既可以是添加一个新变量,也可以是移除一个现有变量,以达到模型性能的最优。

步骤

  1. 从空模型开始或包含所有预测变量的模型开始(具体取决于实现方式)。
  2. 在每一步中,评估所有可能的添加或移除变量的操作。
  3. 选择对模型性能最优的操作(添加或移除一个变量)。
  4. 重复步骤2和步骤3,直到添加或移除任何变量都不能显著改善模型。

二、示例

  • 水泥凝固时放出的热量 y y y 与水泥中 4 种化学成分 x 1 , x 2 , x 3 , x 4 x_1,x_2,x_3,x_4 x1,x2,x3,x4 有关,今测得一组数据如下,试用逐步回归确定一个线性模型,并找出影响水泥凝固时放出热量的必要因素
    在这里插入图片描述
    根据此示例,本文选用后退法选择出影响水泥凝固时放出热量的必要因素。

三、代码实现----python

1. 输入数据

import pandas as pd
import numpy as np
# 数据
x1 = np.array([7, 1, 11, 11, 7, 11, 3, 1, 2, 21, 1, 11, 10])
x2 = np.array([26, 29, 56, 31, 52, 55, 71, 31, 54, 47, 40, 66, 68])
x3 = np.array([6, 15, 8, 8, 6, 9, 17, 22, 18, 4, 23, 9, 8])
x4 = np.array([60, 52, 20, 47, 33, 22, 6, 44, 22, 26, 34, 12, 12])
y = np.array([78.5, 74.3, 104.3, 87.6, 95.9, 109.2, 102.7, 72.5, 93.1, 115.9, 83.8, 113.3, 109.4])# 自变量矩阵
X = pd.DataFrame({'x1': x1, 'x2': x2, 'x3': x3, 'x4': x4})

2. 初始化

本文选用的后退法,所以被选择的因素初始化为包含所有因素,被排出的元素列表为空。

# 初始化未被选中的因素
excluded = list(initial_list)
# 初始化被选中的因素
included = list(set(X.columns) - set(excluded))

3. 评估每个变量的显著性

本文中使用 P P P 值的大小评估每个变量的显著性。

步骤:

  1. 拟合回归模型
  2. 获取所有特征的P值
  3. 找到最大的P值及其对应的特征。
# 拟合选中的因素
model = sm.OLS(y, sm.add_constant(pd.DataFrame(X[included]))).fit()# 得出被选中的因素里P值最大的
p_values = model.pvalues# 排除常数项(截距项)的P值
p_values = p_values.drop('const')# 找到最大的P值及其对应的特征
max_p_value = p_values.max()
print("最大的P值为:",max_p_value)

4. 判断函数退出的标志

直到被选中的因素拟合后得到的最大 P P P 值小于 α ( 0.05 ) \alpha(0.05) α(0.05),意味着移除任何变量都不能显著改善模型,函数退出。

def stepwise_selection(X, y, initial_list = [], threshold = 0.05,mark = True):# 初始化未被选中的因素excluded = list(initial_list)# 初始化被选中的因素included = list(set(X.columns) - set(excluded))while mark:# 拟合选中的因素model = sm.OLS(y, sm.add_constant(pd.DataFrame(X[included]))).fit()# 得出被选中的因素里P值最大的p_values = model.pvalues# 排除常数项(截距项)的P值p_values = p_values.drop('const')# 找到最大的P值及其对应的特征max_p_value = p_values.max()print("最大的P值为:",max_p_value)if max_p_value < threshold:mark = Falseprint("最终模型:")print(model.summary())# 获取回归系数b = model.paramselse:max_p_feature = p_values.idxmax()print("最大的P值对应的特征为:",max_p_feature)# 从被选中的因素中去除included.remove(max_p_feature)print("更新后的因素为:",included)return included, b

5. 逐步回归的完整代码

import pandas as pd
import numpy as np
import statsmodels.api as sm# 数据
x1 = np.array([7, 1, 11, 11, 7, 11, 3, 1, 2, 21, 1, 11, 10])
x2 = np.array([26, 29, 56, 31, 52, 55, 71, 31, 54, 47, 40, 66, 68])
x3 = np.array([6, 15, 8, 8, 6, 9, 17, 22, 18, 4, 23, 9, 8])
x4 = np.array([60, 52, 20, 47, 33, 22, 6, 44, 22, 26, 34, 12, 12])
y = np.array([78.5, 74.3, 104.3, 87.6, 95.9, 109.2, 102.7, 72.5, 93.1, 115.9, 83.8, 113.3, 109.4])# 自变量矩阵
X = pd.DataFrame({'x1': x1, 'x2': x2, 'x3': x3, 'x4': x4})def stepwise_selection(X, y, initial_list=[], threshold=0.05,mark = True):# 初始化未被选中的因素excluded = list(initial_list)# 初始化被选中的因素included = list(set(X.columns) - set(excluded))while mark:# 拟合选中的因素model = sm.OLS(y, sm.add_constant(pd.DataFrame(X[included]))).fit()# 得出被选中的因素里P值最大的p_values = model.pvalues# 排除常数项(截距项)的P值p_values = p_values.drop('const')# 找到最大的P值及其对应的特征max_p_value = p_values.max()print("最大的P值为:",max_p_value)if max_p_value < threshold:mark = Falseprint("最终模型:")print(model.summary())# 获取回归系数b = model.paramselse:max_p_feature = p_values.idxmax()print("最大的P值对应的特征为:",max_p_feature)# 从被选中的因素中去除included.remove(max_p_feature)print("更新后的因素为:",included)return included, bresult, b = stepwise_selection(X, y)print(result)
print(b)

运行结果:

评估变量显著性的过程:
在这里插入图片描述

最终的模型:
在这里插入图片描述

回归系数:
在这里插入图片描述

6. 生成三维图的代码

import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D
import numpy as np# 计算Z的值
Z = b['const'] + b['x1'] * x1 + b['x2'] * x2# 创建一个新的3D绘图对象
fig = plt.figure()
'''
111 的具体含义是:
第一位 1:整个图形只有 1 行。
第二位 1:整个图形只有 1 列。
第三位 1:子图在这个 1x1 网格中的第 1 个位置。
'''
ax = fig.add_subplot(111, projection='3d')# 绘制散点图
ax.scatter(x1, x2, Z, c='r', marker='o', label='Data Points')# 创建网格以绘制曲面
x1_range = np.linspace(min(x1), max(x1), 100)
x2_range = np.linspace(min(x2), max(x2), 100)
x1_grid, x2_grid = np.meshgrid(x1_range, x2_range)# 计算曲面上的Z值
Z_surface = b['const'] + b['x1'] * x1_grid + b['x2'] * x2_grid# 绘制曲面图
'''
alpha意义:alpha 参数用于设置曲面的透明度。
取值范围:alpha 的取值范围是 0 到 1 之间。
0 表示完全透明,即不可见。
1 表示完全不透明。
作用:通过调整 alpha 参数,你可以在同一视图中更好地叠加多个图形,使得它们不会完全遮挡对方。cmap意义:cmap 参数用于设置曲面的颜色映射(colormap)。
常见的颜色映射:viridis, plasma, inferno, magma, cividis, jet, rainbow, coolwarm, hot 等。
作用:颜色映射用于根据 Z 值来着色曲面,帮助更清晰地展示高度或强度的变化。
'''
ax.plot_surface(x1_grid, x2_grid, Z_surface, alpha=0.5, cmap='viridis')# 设置标签
ax.set_xlabel('X1')
ax.set_ylabel('X2')
ax.set_zlabel('Z')# 添加图例
ax.legend()# 显示图形
plt.show()

运行结果:

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/404845.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

软体水枪在灭火工作中发挥什么作用_鼎跃安全

火灾&#xff0c;这一频繁侵袭我们日常生活的灾难性事件&#xff0c;以其迅猛之势对人类的生存环境与日常生活构成了极其严重的破坏与威胁。它不仅能够在瞬间吞噬财产&#xff0c;更可怕的是&#xff0c;它无情地剥夺了生命&#xff0c;破坏了家庭&#xff0c;给社会留下了难以…

关于Ubuntu中使用命令行安装Qt的一些分享

以Ubuntu 22.04为例。 1、安装默认的Qt库 sudo apt-get install qtbase5-dev qtbase5-dev-tools qtchooser 这条指令执行完会出现 usr/lib/x86_64-linux-gnu/qt5 文件&#xff0c;并伴随5个子文件夹&#xff0c;结构如下&#xff1a; 并且会出现 usr/lib/qt5, usr/lib/x86_6…

第5节:Elasticsearch核心概念

我的后端学习笔记大纲 我的ElasticSearch学习大纲 1.Lucene和Elasticsearch的关系: 1.Lucene&#xff1a;最先进、功能最强大的搜索库&#xff0c;直接基于lucene开发&#xff0c;非常复杂&#xff0c;api复杂2.Elasticsearch&#xff1a;基于lucene&#xff0c;封装了许多luc…

SpringBoot的自动配置原理探究

目录 什么是SpringBoot的自动配置&#xff08;Auto-Configuration&#xff09; 举例&#xff1a;SpringBoot自动配置&#xff08;Redis的自动配置&#xff09;的实例&#xff1a; 步骤1.&#xff1a;引入Redis启动器pom依赖 步骤2.在application.yml或者&#xff08;proper…

XXL-JOB漏洞分析与利用

一、前言 在当今的数字化时代&#xff0c;任务调度平台对于企业级应用来说至关重要。它们负责自动化和协调各种时间敏感或周期性的任务&#xff0c;确保业务流程的顺畅运行。XXL-JOB作为一款流行的分布式任务调度平台&#xff0c;因其强大的功能和易用性&#xff0c;被广泛部署…

vue3父子组件双向数据绑定v-model;父组件调用子组件事件

效果&#xff1a; 父far.vue <template><div><div>父组件内容<pre>value1:{{ value1 }}</pre><el-button type"primary">flag1:{{ flag1 }}</el-button><pre>obj1:{{ obj1 }}</pre><el-input v-model&q…

进阶SpringBoot之 JDBC 篇

对于数据访问层&#xff0c;无论是SQL&#xff08;关系型数据库&#xff09;还是NOSQL&#xff08;非关系型数据库&#xff09;&#xff0c; Spring Boot 底层都是采用 Spring Data 的方式进行统一处理 创建一个新项目&#xff0c;依赖勾选 JDBC API、MySQL Driver 项目创建好…

2024.8.20 作业

目录 思维导图&#xff1a; 面试题练习&#xff1a; 1、C语言中指针数组和数组指针的区别 2、结构体字节对齐的原理 3、TCP和UDP的区别 4、同步通信和异步通信的区别 5、多线程的理解 6、大小端验证 7、互斥锁 8、共享内存特点 9、C语言的指针 10、gcc编译 11、socket套接字 1…

【TCP】确认应答、超时重传机制和TCP报头

TCP 相关机制 TCP 基本特点&#xff1a;有连接、可靠传输、面向字节流、全双工 有连接、面向字节流和全双工都能在前面的代码中体现有连接&#xff1a;必须要先调用 accept 建立联系才能处理面向字节流&#xff1a;会拿到 clientSocket 对象的 InputStream 和 OutputStream&a…

加密请求包的爆破

本文来源无问社区&#xff0c;更多实战内容可前往查看http://wwlib.cn/index.php/artread/artid/10414.html 在平时进行漏洞挖掘的时候经常会在诸如登陆的地方遇到密码经过了加密&#xff0c;而且不是也 base64 或者 md5 啥的&#xff0c;而可能是 RSA 之类的&#xff0c;这就…

Python 办公自动化 案例 将Excel 数据导入数据库 【2】推荐

前言&#xff1a; 前面我们梳理了如何处理Excel数据&#xff0c;详细的回顾了如何读取Excel行、列以及单元格数据&#xff0c;如何创建一个Excel、向Excel填充数据以及保存Excel数据。主要是xlrd读取和xlwt写入两个python第三方模块对Excel数据操作的一些常用函数以及属性。点…

【JVM】深入理解类加载机制(一)

深入理解类加载机制 Klass模型 Java的每个类&#xff0c;在JVM中都有一个对应的Klass类实例与之对应&#xff0c;存储类的元信息如:常量池、属性信息、方法信息…从继承关系上也能看出来&#xff0c;类的元信息是存储在元空间的。普通的Java类在JVM中对应的是InstanceKlass(C)…

4款AI 生成 PPT的工具,帮你赶上演示文稿的新趋势!

AI 生成 PPT 最大的优势就在于它能够帮助我们提高效率。如果我们自己制作的话就需要花费大量的时间去收集资料、构思布局、设计排版。而现在&#xff0c;有了AI工具&#xff0c;一切就迎刃而解&#xff0c;如果大家需要这样的工具&#xff0c;可以看看这4款。 1、笔灵办公 直通…

RabbitMQ 的工作原理

下面是rabbitmq 的工作原理图解 1、客户端连接到消息队列服务器&#xff0c;打开一个channel。 2、客户端声明一个exchange&#xff0c;并设置相关属性。 3、客户端声明一个queue&#xff0c;并设置相关属性。 4、客户端使用routing key&#xff0c; 在exchange和queue 之间…

为什么说网络安全行业是IT行业最后的红利?

前言 2023年网络安全行业的前景看起来非常乐观。根据当前的趋势和发展&#xff0c;一些趋势和发展可能对2023年网络安全行业产生影响&#xff1a; 5G技术的广泛应用&#xff1a;5G技术的普及将会使互联网的速度更快&#xff0c;同时也将带来更多的网络威胁和安全挑战。网络安全…

《向量数据库 Faiss 搭建与使用全攻略》

一、Faiss 概述 Faiss 是由 Facebook AI 团队开发的一款强大工具&#xff0c;在大规模数据处理和相似性搜索领域占据着重要地位。 在当今信息爆炸的时代&#xff0c;数据规模呈指数级增长&#xff0c;如何从海量数据中快速准确地找到相似的数据成为了关键挑战。Faiss 应运而生…

《黑神话.悟空》:一场跨越神话与现实的深度探索

《黑神话.悟空》&#xff1a;一场跨越神话与现实的深度探索 在国产游戏日益崛起的今天&#xff0c;《黑神话.悟空》以其独特的剧情、丰富的人物设定和深刻的主题&#xff0c;成为了无数玩家翘首以盼的国产3A大作。这款游戏不仅是一次对传统故事的创新演绎&#xff0c;更是一场对…

AIoTedge边缘计算平台V1.0版本发布

AIoTedge边缘计算平台V1.0&#xff0c;一款创新的AIoT解决方案&#xff0c;现已正式发布。该产品集成了NodeRED软网关、边缘物联网平台和边缘AI能力&#xff0c;为企业提供强大的边云协同能力。它支持设备管理和泛协议接入&#xff0c;确保不同设备间的无缝连接。AIoTedgeV1.0还…

[C#]winform基于深度学习算法MVANet部署高精度二分类图像分割onnx模型高精度图像二值化

【训练源码】 https://github.com/qianyu-dlut/MVANet 【参考源码】 https://github.com/hpc203/MVANet-onnxrun 【算法介绍】 二分图像分割&#xff08;DIS&#xff09;最近出现在从高分辨率自然图像中进行高精度对象分割方面。在设计有效的DIS模型时&#xff0c;主要的挑战是…

SDCS-IOE-2C 3ADT220090R007模块控制器

SDCS-IOE-2C 3ADT220090R007模块控制器 SDCS-IOE-2C 3ADT220090R007模块控制器 SDCS-IOE-2C 3ADT220090R007模块控制器 SDCS-IOE-2C 3ADT220090R007模块控制器引脚线 SDCS-IOE-2C 3ADT220090R007模块控制器说明书 SDCS-IOE-2C 3ADT220090R007模块控制器线路图 SDCS-IOE-2…