用Python解决预测问题_多元线性回归模板

多元线性回归是一种统计学方法,用于分析两个或多个自变量(解释变量)与一个因变量(响应变量)之间的关系。在最简单的线性回归模型中,只有一个自变量和一个因变量,它们之间的关系可以用一条直线来近似。而多元线性回归则扩展了这种关系,允许多个自变量同时影响因变量。

基本形式
多元线性回归的基本形式可以表示为:

其中:

模型假设
多元线性回归模型的有效性依赖于以下几个假设:
1. 线性关系:自变量和因变量之间存在线性关系。
2. 独立性:自变量之间相互独立,没有多重共线性。
3. 同方差性(Homoscedasticity):误差项具有恒定的方差。
4. 正态分布:误差项呈正态分布。

参数估计
通常使用最小二乘法(OLS,Ordinary Least Squares)来估计回归系数。这种方法通过最小化误差项的平方和来找到最佳的回归系数。

模型评估

模型的拟合优度可以通过决定系数来评估,它表示模型解释的变异占总变异的比例。此外,还可以使用调整决定系数来考虑模型中自变量的数量。

特殊情况
- 多元线性回归假设变量之间存在线性关系,如果实际关系是非线性的,模型可能不准确。
- 如果自变量之间存在高度相关性(多重共线性),会影响模型的稳定性和系数的解释性。
- 对异常值和非正态分布的误差项较为敏感。

多元统计分析的应用场景十分广泛,比如在计量经济学中,多元线性回归常用于预测经济变量之间的关系,例如预测消费者支出、GDP增长、失业率等。以下是一个简化的实例,我们将使用多元线性回归模型来预测某一地区的住房价格,这通常在房地产经济学研究中很常见。

假设我们有以下数据:

  • Housing_Price:房屋销售价格(因变量)
  • Avg_Income:地区平均收入(自变量1)
  • Population:地区人口(自变量2)
  • Unemployment_Rate:地区失业率(自变量3)

我们将使用这些数据来构建一个多元线性回归模型,该模型将预测给定这些自变量值时的房屋销售价格。这个例子的数据都是数值类型,如果是类别变量,还需要构建0和1的虚拟变量。

一:满足模型假设下的多元线性回归模型

以下是使用Python和statsmodels库来实现多元线性回归模型的步骤:

首先导入库和创建数据:

import statsmodels.api as sm
import pandas as pd
import numpy as np# 假设数据如下:
data = {'Avg_Income': [50000, 60000, 55000, 70000, 65000],'Population': [100000, 150000, 120000, 180000, 160000],'Unemployment_Rate': [5, 4, 4.5, 3, 3.5],'Housing_Price': [200000, 250000, 220000, 300000, 280000]
}# 创建DataFrame
df = pd.DataFrame(data)
df

结果如下:

再定义自变量和因变量以及截距项:

# 定义自变量和因变量
X = df[['Avg_Income', 'Population', 'Unemployment_Rate']]
y = df['Housing_Price']# 添加常数项,对应截距项
X = sm.add_constant(X)
X,y

结果如下:

接下来构建多元线性回归模型:

# 构建多元线性回归模型
model = sm.OLS(y, X).fit()# 查看回归分析结果
model.summary()

结果如下:

 其中OLS表示示普通最小二乘法(Ordinary Least Squares)模型,它是多元线性回归的一种实现方式。y 是因变量(响应变量),X 是一个包含自变量(解释变量)的矩阵。X 通常需要是一个 DataFrame 或 array,其中包含了一个用于乘以截距项的全为1的列(表示截距)。这个方法用于拟合模型,即计算回归系数,使得模型预测的误差平方和最小。

model.summary():这个方法会打印出一个包含模型估计结果的详细摘要。这个摘要通常包括以下内容:

模型参数的估计值(回归系数)

这是模型中每个自变量的系数,表示当自变量增加一个单位时,因变量预期的变动量。正系数表示随着自变量的增加,因变量也增加;负系数则表示相反的关系。

标准误

标准误是回归系数估计的标准偏差,它衡量了估计值的精确度。较小的标准误意味着估计值更接近真实的回归系数。

t 统计量

t 统计量是回归系数的估计值除以其标准错。它用于测试单个回归系数是否显著不同于零(即,自变量是否对因变量有显著影响)。

P 值

P 值是一个概率值,用于评估观察到的统计证据(如 t 统计量)在零假设(即回归系数等于零)为真的情况下出现的概率。通常,P 值小于 0.05 被认为是统计显著的。

R-squared(决定系数)

R-squared 表示模型解释的变异占总变异的比例。它是一个介于 0 和 1 之间的数,数值越高表示模型的解释能力越强。

Adjusted R-squared(调整后的决定系数)

调整后的决定系数考虑了模型中自变量的数量。与 R-squared 不同,当增加更多的自变量时,调整后的决定系数可能会减少,这有助于防止过度拟合。

F 统计量

F 统计量用于检验模型整体的显著性,即模型中至少有一个自变量对因变量有显著影响。它是基于模型的回归平方和与误差平方和的比率计算的。

模型的其他统计摘要

这包括观测值的数量(模型中数据点的总数),自由度(用于计算标准误和 t 统计量的参数,通常是观测值数量减去模型参数的数量),以及残差(实际观测值与模型预测值之间的差异)的摘要统计,如残差的均值、标准差等。

这些统计量共同提供了对多元线性回归模型拟合优度、预测能力和各个自变量重要性的全面评估。通过这些统计量的分析,研究者可以判断模型的有效性,并做出相应的调整或解释。

最后进行模型预测:

# 使用模型进行预测
# 假设我们要预测一个平均收入为60000,人口为200000,失业率为4%的地区
new_data = {'const': 1,'Avg_Income': [60000],'Population': [200000],'Unemployment_Rate': [4]
}
new_data_df = pd.DataFrame(new_data)
predicted_price = model.predict(new_data_df)print(f"预测房价为: {predicted_price[0]}")

得到预测结果约为250000元。

二:特殊情况下的多元线性回归模型修正

1:异方差性

异方差性(Heteroscedasticity)是指在回归模型中,误差项(或残差)的方差不是常数,而是随着自变量(解释变量)的不同水平而变化的现象。换句话说,异方差性意味着在不同的自变量值下,因变量的预测误差的大小不同。

在统计和计量经济学中,异方差性是一个重要的问题,因为它违反了普通最小二乘法(Ordinary Least Squares, OLS)的一个关键假设,即误差项具有恒定的方差(同方差性,Homoscedasticity)。

检测

检测异方差性的方法包括:

  • 绘制残差图:如果残差随着自变量或因变量的水平而呈现出明显的扩散或聚集模式,则可能存在异方差性。
  • 使用统计检验:如Breusch-Pagan检验、White检验等,这些检验可以用来判断是否存在显著的异方差性。

处理方法

处理异方差性的方法包括:

  • 加权最小二乘法(Weighted Least Squares, WLS):通过为不同的观测值分配不同的权重,使每个观测值的误差方差变为常数。
  • 变换方法:如对因变量或自变量进行对数转换,有时可以减少或消除异方差性。
  • 使用稳健标准误差:在回归分析中使用稳健的标准误差估计,可以在一定程度上减轻异方差性的影响。

总之,异方差性是回归分析中需要特别注意的问题,因为它会影响模型估计的准确性和可靠性。接下来我们来使用加权最小二乘(WLS)来修正:

import statsmodels.api as sm# 假设df是包含数据的DataFrame
X = df[['Avg_Income', 'Population', 'Unemployment_Rate']]
y = df['Housing_Price']
X = sm.add_constant(X)# 假设我们观察到随着收入的增加,房价的方差也在增加
weights = 1. / (X['Avg_Income'] ** 2)  # 权重与收入的平方成反比# 使用加权最小二乘法
wls_model = sm.WLS(y, X, weights=weights).fit()
print(wls_model.summary())

2:自相关

自相关(Autocorrelation),也称为序列相关,是指时间序列数据中观测值之间的相关性。在统计和计量经济学中,自相关是指一个时间序列的未来值与其过去的值之间存在某种程度的关联性。自相关问题常见于时间序列数据分析和回归模型中。自相关会导致普通最小二乘法(OLS)估计的标准误差出现偏差,从而影响假设检验的可靠性。

检测

检测自相关的方法包括:

  • 残差图:通过绘制残差序列图,可以直观地检查是否存在自相关。
  • 统计检验:如Durbin-Watson检验,是检测一阶自相关的一种常用方法。

处理方法

处理自相关的方法包括:

  • 差分:对时间序列数据进行差分,以消除或减少自相关。
  • 使用自回归模型(AR):在模型中包含自回归项,以直接建模时间序列的自相关特性。
  • 广义最小二乘法(GLS):使用GLS可以处理自相关问题,特别是当自相关形式已知时。
  • 使用Newey-West标准误差:在回归分析中使用Newey-West标准误差估计,可以在一定程度上减轻自相关的影响。

总之,自相关是时间序列分析中的一个重要问题,需要正确识别和处理,以确保回归模型的有效性和预测的准确性。序列相关性是指误差项之间具有相关性,这在时间序列数据中很常见。接下来以处理序列相关性的方法之一广义最小二乘(GLS)为例:

# 假设df是按时间排序的DataFrame
X = df[['Avg_Income', 'Population', 'Unemployment_Rate']]
y = df['Housing_Price']
X = sm.add_constant(X)# 计算Newey-West标准误差来处理序列相关性
gls_model = sm.GLS(y, X).fit(cov_type='HAC', cov_kwds={'maxlags': 1})
print(gls_model.summary())

3:多重共线性

多重共线性(Multicollinearity)是指在回归模型中,自变量(解释变量)之间存在较高的线性相关性。也就是说,一个自变量可以用其他一个或多个自变量来很好地预测。多重共线性是回归分析中的一个常见问题,它可能对模型的估计和解释产生不利影响。

检测

检测多重共线性的方法包括:

  • 方差膨胀因子(Variance Inflation Factor, VIF):VIF值衡量了多重共线性的程度。VIF值大于10通常被认为是高度共线性的指示。
  • 条件指数(Condition Index):条件指数较高(通常大于30)可能表明存在多重共线性。
  • 特征值和特征向量分析:通过分析回归系数矩阵的特征值和特征向量来检测共线性。

处理方法

处理多重共线性的方法包括:

  • 排除变量:移除一些共线性的自变量,尤其是那些理论上不重要或经济意义不大的变量。
  • 合并变量:将高度相关的变量合并为一个变量,或者使用主成分分析(PCA)来减少变量的维度。
  • 岭回归(Ridge Regression):通过引入正则化项来减少共线性的影响,同时惩罚大的回归系数。
  • 增加样本量:如果可能,增加样本量可以帮助减少共线性问题。

总之,多重共线性是回归分析中的一个重要问题,它会影响模型的可靠性和解释能力。接下来我们以岭回归举例:

from statsmodels.stats.outliers_influence import variance_inflation_factor
from sklearn.linear_model import Ridge# 计算VIF值来检测多重共线性
vif_data = pd.DataFrame()
vif_data["feature"] = X.columns
vif_data["VIF"] = [variance_inflation_factor(X.values, i) for i in range(X.shape[1])]
print(vif_data)# 使用岭回归来处理多重共线性
ridge_model = Ridge(alpha=1.0)  # alpha是正则化强度
ridge_model.fit(X, y)
print(ridge_model.coef_)

以上就是满足模型假设和分别在异方差性,自相关和多重共线性等特殊情况下的多元线性回归模型的Python实现示例。

点下关注,分享更多有关AI,数据分析和量化金融的实用教程和实战项目。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/406928.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

绿色能源的应用与节约,低碳生活方式指南

在这个全球化的时代,环境问题越来越严重,大家都关注的绿色能源和节约成了热门话题。怎样在日常生活中用好绿色能源,实现低碳生活,是每个环保人士都需要了解的关键问题。这篇文章会详细告诉你绿色能源的使用、优点、节约方法以及低…

msxml*.dll 错误 ‘80072f7d‘ 安全频道支持出错 解决方案

诡异的 msxml6.dll错误 80072f7d安全频道支持出错,用 SSLTools.exe 修复的方法无效!!! ’--------------------------------------------------------------- 有如下简要 ASP 代码,用于获取网页链接返回内容&#xf…

window系统开代理在Conda环境中导致pip安装python包出现timeout

文章目录 1: 临时性配置 pip 代理文件2. 永久性配置 pip 代理文件 在使用 Conda 时,如果你设置了代理,但 pip 仍然无法工作,可能需要确保代理配置正确并适用于 pip。以下是几种可能的解决方法,先看一下报错 WARNING: Retrying (Re…

物联网设备字符串转串口指令-SAAS本地化及未来之窗行业应用跨平台架构

一、指令转换作用 现在服务器一般采用json数据格式 但是终端底层都是二进制指令 直接从服务器传输的指令就无法执行,因此需要转换 二、转换源码 void StringToHandleCommand(byte *byteArray, const char *hexString) {bool oddLength strlen(hexString) &…

【威锋网-注册安全分析报告-无验证方式导致安全隐患】

前言 由于网站注册入口容易被黑客攻击,存在如下安全问题: 1. 暴力破解密码,造成用户信息泄露 2. 短信盗刷的安全问题,影响业务及导致用户投诉 3. 带来经济损失,尤其是后付费客户,风险巨大,造…

实战Kubernetes之快速部署 K8s 集群 v1.28.0

文章目录 一、前言二、主机准备三、系统配置3.1. 关闭防火墙及相关配置3.2. 修改主机名3.3. 主机名DNS解析3.4. 时间同步3.5. 配置网络3.6. 重启服务器 四、安装软件4.1. 安装 Docker4.2. 安装 cri-dockerd4.3. 添加国内YUM源4.4. 安装 kubeadm、kubelet 和 kubectl 五、Master…

jmreport积木报表实战中的设计要点(实时更新)

目录 前言1. 配置数据源2. 数据字典3. excel设计4. 带参数查询 前言 以下为文章记录,主要记录报表工具的使用法则 更加详细的要点推荐阅读: 《数据分析-JiMuReport》积木报表详细入门教程积木报表操作手册 以下为实战中主要的总结要点 1. 配置数据源…

记录一次搭建uniapp-vue3的基础项目

1.使用 HBuilder X 创建uniapp vue3的基础项目 2.安装 自动导包插件 unplugin-auto-import npm install unplugin-auto-import或者 pnpm install unplugin-auto-import2.1 根目录下创建 vite.config.js 复制粘贴以下内容 import { defineConfig } from vite import uni fro…

【握奇数据招聘(北森)-注册/登录安全分析报告】

前言 由于网站注册入口容易被黑客攻击,存在如下安全问题: 1. 暴力破解密码,造成用户信息泄露 2. 短信盗刷的安全问题,影响业务及导致用户投诉 3. 带来经济损失,尤其是后付费客户,风险巨大,造…

[ 全部搞定 - 发票导出表格 ] PDF发票提取到表,图片发票提取到表格,扫描件发票提取到表格,全电发票PDF,全电发票扫描件识别导出EXCEL表格

最近很多朋友说找PDF发票提取Excel表格的,找到了图片识别Excel表格的,有的找图片识别Excel表格的,找到了PDF发票提取表格的,所以就很难搞,还有的说都想要 今天一篇文章,全部搞定所有发票【电子发票&#x…

【计算机组成原理】三、存储系统:1.存储器的分类、层次化结构、性能指标、基本组成(半导体、存储芯片基本原理)

三、存储系统(存储器层次结构) 文章目录 三、存储系统(存储器层次结构)1.存储器的分类1.1按在计算机中的作用(层次)❗多级存储结构(层次化结构)1.2按存储介质1.3按存取方式1.4按信息…

Godot《躲避小兵》实战之创建游戏主场景

游戏主场景 现在是时候将我们所做的一切整合到一个可玩的游戏场景中了。 创建新场景并添加一个 Node节点,命名为 Main。(我们之所以使用 Node 而不是 Node2D,是因为这个节点会作为处理游戏逻辑的容器使用。本身是不需要 2D 功能的。&#x…

STM中的I2C

常见的几种通信接口 I2C总线定义 定义 I2C - Inter-Integrated Circuit:两线式 串行总线:说明处理器和外设之间只需两根信号线,分别是SCL时钟控制信号线和SDA数据线 SCL(serial clock line) 时钟控制信号线&#xff…

fastadmin 安装

环境要求,大家可以参考官方文档的,我这里使用的是phpstudy,很多已经集成了。 注意一点,PHP 版本:PHP 7.4 。 第二步:下载 下载地址:https://www.fastadmin.net/download.html 进入下载地址后…

【嵌入式裸机开发】智能家居入门7:最新ONENET,MQTT协议接入,最全最新(微信小程序、MQTT协议、ONENET云平台、STM32)

智能家居入门7 前言一、ONENET云平台创建产品与设备二、STM32端连接服务器前的准备三、STM32端实现四、微信小程序端连接服务器前的准备五、微信小程序端实现六、最终测试 前言 本篇文章介绍最新ONENET云平台的MQTT协议接入方法,在STM32上实现数据上云与服务器下发…

TCP和UDP编程的学习

UDP编程特点:c/s模型 不可靠 ; 无链接 ;数据报形式(效率高); TCP编程特点: 面向链接; 可靠传输;(保证数据准确可靠); 面向字节流&a…

基于x86 平台opencv的图像采集和seetaface6的口罩人脸检测识别功能

目录 一、概述二、环境要求2.1 硬件环境2.2 软件环境三、开发流程3.1 编写测试3.2 配置资源文件3.2 验证功能一、概述 本文档是针对x86 平台opencv的图像采集和seetaface6的口罩人脸检测识别功能,opencv通过摄像头采集视频图像,将采集的视频图像送给seetaface6的口罩人脸检测…

【blender】一个汉堡包

第一次建模,哈哈汉堡包样式大差不差。至于这么做的,那么多快捷键完蛋,忘得差不多了! 官网地址:https://www.blender.org/download/ 我下载的是4.2版本

DHCP协议-CSP认证

文章目录 DHCP协议 DHCP协议 stringstream的用法 应用实践 #include<bits/stdc.h>using namespace std;signed main() {string s"wo shi wwl, also wlw";stringstream ss;ss<<s;while(ss>>s){if(s[s.size()-1],) s[s.size()-1] ;cout<<s<…

Excel的使用总结2

目录 1、数据的分割 2、根据某个条件筛选出来的数据&#xff0c;想要直接复制&#xff0c;并粘贴到与筛选数据对应的位置 3、几个单元格中的内容连接 4、如果一个表格数据很多&#xff0c;但是你想查看一列中是否有数据&#xff0c;如何查看 1、数据的分割 首先&#xff0c…