多元线性回归分析

介绍:

回归分析是一种强大的统计方法,用于研究变量之间的关系,特别是一个或多个自变量与一个因变量之间的定量关系。

总结就是研究XY之间的相关性的分析

First:相关性:

相关性不代表因果性,

Eg:统计数据表明:游泳死亡人数越高,雪糕卖得越多(游泳死亡人数和雪糕售出量之间呈显著正相关)

可以下结论:吃雪糕就会增加游泳死亡风险吗(因为吃雪糕,所以游泳死亡风险增加了)?

当然不可以,可能这里是因为夏天所以游泳的人和吃雪糕的人多了,但是两者没有因果

SECOND:Y

Y是什么?俗称因变量。取义,因为别人的改变,而改变的变量。

在实际应用中,Y常常是我们需要研究的那个核心变量。

(1)经济学家研究经济增长的决定因素,那么Y可以选取GDP增长率(连续数值型变量)

(2)P2P公司要研究借款人是否能按时还款,那么Y可以设计成一个二值变量,Y=0时代表可以还款,Y=1时代表不能还款(0-1型变量)。

(3)消费者调查得到的数据(1表示非常不喜欢,2表示有点不喜欢,3表示一般般,4表示有点喜欢,5表示非常喜欢。(定序变量):

(4)管理学中RFM模型:F代表一定时间内,客户到访的次数,次数其实就是一个非负的整数。(计数变量)

(5)研究产品寿命、企业寿命甚至是人的寿命(这种数据往往不能精确的观测,例如现在要研究吸烟对于寿命的影响,如果选取的样本中老王60岁现在还活的非常好,我们不可能等到他去世了再做研究,那怎么办呢?直接记他的年龄为60+,那这种数据就是截断的数据)(生存变量)

THIRD:X

X是用来解释Y的相关变量,所以X被称为自变量,当然,另一套定义方法是:X为解释变量,Y为被解释变量,

回归分析的任务就是,通过研究X和Y的相关关系,尝试去解释Y的形成机制,进而达到通过X去预测Y的目的。

例题:下表是1990-2007年中国棉花单产与要素投入的表格,请用回归的方法指出哪个要素投入是最重要的要素?

回归分析的使命

使命1:回归分析要去识别并判断:哪些X变量是同Y真的相关,哪些不是。统计学中有一个非常重要的领域,叫做“变量选择”。(逐步回归法)

使命2:去除了那些同Y不相关的X变量,那么剩下的,就都是重要的、有用的X变量了。接下来回归分析要回答的问题是:这些有用的X变量同的相关关系是正的呢,还是负的?

使命3:在确定了重要的X变量的前提下,我们还想赋予不同X不同的权重也就是不同的回归系数,进而我们可以知道不同变量之间的相对重要性。

这就是回归分析要完成的三个使命:

第一、识别重要变量;

第二、判断相关性的方向;

第三、要估计权重(回归系数)

回归的分类:

数据的分类;

(1)横截面数据:在某一个时点收集到的不同对象的数据

(2)时间序列数据:对同一个对象在不同时间 连续观察所得

(3)面板数据:横截面数据和时间序列数据的综合

数据的收集:

一元线性回归:

这里的线性假定并不要求初始模型都呈上述的严格线性关系自变量与因变量可通过变量变换而转化成线性模型。

下面的四个例子都可以通过变量替换转换为线性模型

1.数据的预处理

可以使用excel/state/spss进行数据的预处理

回归系数的解释:

定量的解释

假设x是某个产品的评分(1-10),y是我们的销量

我们经过计算得出的是y=3.4+2.3x

那么3.4:当评分为0的时候的销量为3.4,(但是没有实际意义)

2.3:每增加一个单位的评分,我们的平均销量增加2.3

假设我们增加了一个自变量,x2产品的价格

我们得出的是y=5.3+0,.19*x1-1.74*x2

5.3:当评分为0,价格为0的时候的销量为5.4,(但是没有实际意义)

0.19:其他变量不变的清空下,每增加一个单位的评分,我们的平均销量增加0.19

-1.74:其他变量不变的清空下,每增加一个单位的价格,我们的平均销量减少1.74

当我们引入一个价格之后,我们的回归系数的变化特别大

这就是遗漏变量的内生性

(

内生性的探究:

假设我们的模型是

u为无法观测或者和y无关的一些变量的集合,且和所有的自变量x不相关的一个扰动项,这个叫做模型的外生性

如果相关,就存在内生性,会导致回归系数不精准,不满足无偏和一致性

加入有两个变量,但是我们忽略了一个,使用一元的线性回归模型,y=kx+b+u

根据蒙特卡罗模拟,发现k越大,内生性越大

无内生性(noendogeneity)要求所有解释变量均与扰动项不相关,这个假定通常太强,因为解释变量一般很多(比如,5-15个解释变量)且需要保证它们全部外生。

是否可能弱化此条件?答案是肯定的,如果你的解释变量可以区分为核心解释变量控制变量两类。

核心解释变量:我们最感兴趣的变量,因此我们特别希望得到对其系数的致估计(当样本容量无限增大时,收敛于待估计参数的真值)

控制变量:我们可能对于这些变量本身并无太大兴趣;而之所以把它们也放入回归方程,主要是为了“控制住"那些对被解释变量有影响的遗漏因素。

在实际应用中,我们只要保证核心解释变量与u不相关即可。

)

所以解释的时候也可以只用去重点去解释核心的解释变量

什么时候取对数对我们的变量进行解释?

目前,对于什么时候取对数还没有固定的规则,但是有一些经验法则:

(1)与市场价值相关的,例如,价格、销售额、工资等都可以取对数,

(2)以年度量的变量,如受教育年限、工作经历等通常不取对数,

(3)比例变量,如失业率、参与率等,两者均可;

(4)变量取值必须是非负数,如果包含0,则可以对y取对数In(1+y);

取对数的好处:(1)减弱数据的异方差性(2)如果变量本身不符合正态分布,取了对数后可能渐近服从正态分布(3)模型形式的需要,让模型具有经济学意义

四种解释:

一元线性回归的解释

双对称模型:

x半对数模型

y半对数模型

定性的解释

虚拟变量:

5,如果有定性的变量,如何处理:

比如研究性别对工资的影响

这里就要引入虚拟变量去讨论男性和女性

计算出来的

多分类的虚拟变量设置

 这里都是ppt的截图

一般虚拟变量个数是定性变量的个数-1(有一个当作对照组)

含有交互项的自变量:

 

实操:

现有某电商平台846条关于婴幼儿奶粉的销售信息,每条信息由11个指标组成。其中,评价量可以从一个侧面反映顾客对产品的关注度。请对所给数据进行以下方面的分析,要求最终的分析将不仅仅有益于商家,更有益于宝妈们为宝贝选择适合自己的奶粉。

1)以评价量为因变量,分析其它变量和评价量之间的关系;

2)以评价量为因变量,研究影响评价量的重要因素

State

定量数据进行描述性统计:

Summarize + 变量1---n

对定性数据进行描述性统计:

Tabulate +变量,gen(A)

返回对应的这个变量的频率分布表,并生成对应的虚拟变量(以A开头)。

对变量进行说明

summarize 团购价元 评价量 商品毛重kg

// 定性变量的频数分布,并得到相应字母开头的虚拟变量

tabulate 配方,gen(A)

tabulate 奶源产地 ,gen(B)

tabulate 国产或进口 ,gen(C)

tabulate 适用年龄岁 ,gen(D)

tabulate 包装单位 ,gen(E)

tabulate 分类 ,gen(F)

tabulate 段位 ,gen(G)

对变量的一些说明

对定量变量进行回归

Regress y x1 x2....

这里的Model==SSR,Residual==SSE,Total==SST

在回归中,我们一般使用调整后的R方

补充:关于拟合优度和调整后的拟合优度:

我们引入的自变量越多,拟合优度会变大。

但我们倾向于使用调整后的拟合优度如果新引入的自变量对SSE的减少程度特别少,那么调整后的拟合优度反而会减小。

F(2,843)是F检验后的量,Prob是p值,这里的原假设是系数全0,这里p=0不接受原假设,所以回归系数不全是0,那么我们可以向下继续回归

原假设是检测βi是否为0

p小于0.05的才是我们关注的,因为这些系数显著的异于0(t检验),

对定性变量进行回归

reg 评价量 G1 G2 G3 G4

这里的G4被被当作了对照组 (多重共线性)

regress 评价量 团购价元 商品毛重kg A1 A2 A3 B1 B2 B3 B4 B5 B6 B7 B8 B9 C1 C2 D1 D2 D3 D4 D5 E1 E2 E3 E4 F1 F2 G1 G2 G3 G4

进行多元线性回归检验

这里的p表示可以接受

这个的解释就可以是coef列的,当其他的变量不变的情况下,xx比xx的平均要xx

eg:F1(分类为牛奶粉的),在其他变量不变的情况下,平均比F2(羊奶粉)高出14894.55的评价量

将表格导出到docx

est store m1

reg2docx m1 using m1.docx, replace

这里的显著性标记

// *** p<0.01  ** p<0.05 * p<0.1

R方低的解决办法

(1)回归分为解释型回归和预测型回归预测型回归一般才会更看重R2解释型回归更多的关注模型整体显著性以及自变量的统计显著性和经济意义显著性即可。

(2)可以对模型进行调整,例如对数据取对数或者平方后再进行回归。

(3)数据中可能有存在异常值或者数据的分布极度不均匀

标准化回归命令(去除量纲)

regress 评价量 团购价元 商品毛重kg, b

regress 评价量 团购价元 商品毛重kg A1 A2 A3 B1 B2 B3 B4 B5 B6 B7 B8 B9 C1 C2 D1

D2 D3 D4 D5 E1 E2 E3 E4 F1 F2 G1 G2 G3 G4,b

这里显著的量只有F1和团购价,比较beta的绝对值,发现团购价才是影响评价量的重要因素

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/3865.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

移动端布局 ---- 学习分享

响应式布局实现方法 主流的实现方案有两种: 通过rem \ vw/vh \ 等单位,实现在不同设备上显示相同比例进而实现适配. 响应式布局,通过媒体查询media 实现一套HTML配合多套CSS实现适配. 在学习移动端适配之前,还需要学习移动端适配原理: 移动端适配原理(Viewport) 了解VSCo…

【大数据2025】Hadoop 万字讲解

文章目录 一、大数据通识大数据诞生背景与基本概念大数据技术定义与特征大数据生态架构概述数据存储数据计算与易用性框架分布式协调服务和任务调度组件数仓架构流处理架构 二、HDFSHDFS 原理总结一、系统架构二、存储机制三、数据写入流程四、心跳机制与集群管理 安全模式&…

彻底讲清楚 单体架构、集群架构、分布式架构及扩展架构

目录 什么是系统架构 单体架构 介绍 示例图 优点 缺点 集群架构 介绍 示意图 优点 缺点 分布式架构 示意图 优点 缺点 生态扩展 介绍 示意图 优点 缺点 扩展&#xff1a;分布式服务解析 纵切拆服务 全链路追踪能力 循环依赖 全链路日志&#xff08;En…

Typora + PowerShell 在终端打开文件

最近在用 Hexo 搭我人生中的第一个博客&#xff0c;Hexo 新建帖子的时候需要在终端用命令hexo n&#xff0c;然后再用 Typora 打开&#xff0c;用鼠标感觉很麻烦&#xff0c;因此直接用终端一键启动了。 发现 Typora 的一个 bug&#x1f41b;&#xff0c;在 YAML 后面写第一个字…

【RAG落地利器】向量数据库Qdrant使用教程

TrustRAG项目地址&#x1f31f;&#xff1a;https://github.com/gomate-community/TrustRAG 可配置的模块化RAG框架 环境依赖 本教程基于docker安装Qdrant数据库&#xff0c;在此之前请先安装docker. Docker - The easiest way to use Qdrant is to run a pre-built Docker i…

设计模式-单例模式

定义 保证一个类仅有一个实例&#xff0c;并提供一个访问它的全局访问点。 类图 类型 饿汉式 线程安全&#xff0c;调用效率高&#xff0c;但是不能延迟加载。 public class HungrySingleton {private static final HungrySingleton instancenew HungrySingleton();private …

初学stm32 --- CAN

目录 CAN介绍 CAN总线拓扑图 CAN总线特点 CAN应用场景 CAN物理层 CAN收发器芯片介绍 CAN协议层 数据帧介绍 CAN位时序介绍 数据同步过程 硬件同步 再同步 CAN总线仲裁 STM32 CAN控制器介绍 CAN控制器模式 CAN控制器模式 CAN控制器框图 发送处理 接收处理 接收过…

OpenHarmony 4.1 SDK11 北向应用开发笔记

目录 声明 1、开启其他应用 2、延时切换页面 3、设置页面切换效果 4、设置背景图片和背景铺满屏幕 5、设置隐藏状态和导航条 6、设置组件大小和对齐方式 7、设置按钮类型改变按钮边框圆角半径 8、常用布局方式 9、布局技巧 声明 本笔记基于OpenHarmony 4.1 SDK11&am…

leetcode707-设计链表

leetcode 707 思路 本题也是用了虚拟头节点来进行解答&#xff0c;这样的好处是&#xff0c;不管是头节点还是中间的节点都可以当成是中间节点来处理&#xff0c;用同一套方法就可以进行处理&#xff0c;而不用考虑太多的边界条件。 下面题目中最主要的实现就是添加操作addA…

高效实现 Markdown 转 PDF 的跨平台指南20250117

高效实现 Markdown 转 PDF 的跨平台指南 引言 Markdown 文件以其轻量化和灵活性受到开发者和技术写作者的青睐&#xff0c;但如何将其转换为易于分享和打印的 PDF 格式&#xff0c;是一个常见需求。本文整合了 macOS、Windows 和 Linux 三大平台的转换方法&#xff0c;并探讨…

汽车网络信息安全-ISO/SAE 21434解析(上)

目录 概述 第四章-概述 1. 研究对象和范围 2. 风险管理 第五章-组织级网络安全管理 1. 网络安全治理&#xff08;cybersecurity governance&#xff09; 2. 网络安全文化&#xff08;cybersecurity culture) 3. 信息共享&#xff08;Information Sharing) 4. 管理体系…

计算机网络 (50)两类密码体制

前言 计算机网络中的两类密码体制主要包括对称密钥密码体制&#xff08;也称为私钥密码体制、对称密码体制&#xff09;和公钥密码体制&#xff08;也称为非对称密码体制、公开密钥加密技术&#xff09;。 一、对称密钥密码体制 定义&#xff1a; 对称密钥密码体制是一种传…

PCL K4PCS算法实现点云粗配准【2025最新版】

目录 一、算法原理1、算法概述2、算法流程3、参考文献二、 代码实现1、原始版本2、2024新版三、 结果展示本文由CSDN点云侠原创,原文链接,首发于:2020年4月27日。如果你不是在点云侠的博客中看到该文章,那么此处便是不要脸的抄袭狗。 博客长期更新,本文最近一次更新时间为…

消息队列实战指南:三大MQ 与 Kafka 适用场景全解析

前言&#xff1a;在当今数字化时代&#xff0c;分布式系统和大数据处理变得愈发普遍&#xff0c;消息队列作为其中的关键组件&#xff0c;承担着系统解耦、异步通信、流量削峰等重要职责。ActiveMQ、RabbitMQ、RocketMQ 和 Kafka 作为市场上极具代表性的消息队列产品&#xff0…

python编程-OpenCV(图像读写-图像处理-图像滤波-角点检测-边缘检测)边缘检测

OpenCV中边缘检测四种常用算子&#xff1a; &#xff08;1&#xff09;Sobel算子 Sobel算子是一种基于梯度的边缘检测算法。它通过对图像进行卷积操作来计算图像的梯度&#xff0c;并将梯度的大小作为边缘的强度。它使用两个3x3的卷积核&#xff0c;分别用于计…

C语言编程笔记:文件处理的艺术

大家好&#xff0c;这里是小编的博客频道 小编的博客&#xff1a;就爱学编程 很高兴在CSDN这个大家庭与大家相识&#xff0c;希望能在这里与大家共同进步&#xff0c;共同收获更好的自己&#xff01;&#xff01;&#xff01; 本文目录 引言正文一、为什么要用文件二、文件的分…

头歌答案--爬虫实战

目录 urllib 爬虫? 第1关&#xff1a;urllib基础 任务描述 第2关&#xff1a;urllib进阶? 任务描述 requests 爬虫 第1关&#xff1a;requests 基础 任务描述 第2关&#xff1a;requests 进阶 任务描述 网页数据解析 第1关&#xff1a;XPath解析网页? 任务描述…

【JavaEE】Spring Web MVC

目录 一、Spring Web MVC简介 1.1 MVC简介1.2 Spring MVC1.3 RequestMapping注解1.3.1 使用1.3.2 RequestMapping的请求设置 1.3.2.1 方法11.3.2.2 方法2 二、Postman介绍 2.1 创建请求2.2 界面如下&#xff1a;2.3 传参介绍 一、Spring Web MVC简介 官方文档介绍&#xff…

Sqlmap入门

原理 在owasp发布的top10 漏洞里面&#xff0c;注入漏洞一直是危害排名第一&#xff0c;其中数据库注入漏洞是危害的。 当攻击者发送的sql语句被sql解释器执行&#xff0c;通过执行这些恶意语句欺骗数据库执行&#xff0c;导致数据库信息泄漏 分类 按注入类型 常见的sql注入…

RabbitMQ基础篇

文章目录 1 RabbitMQ概述1.1 消息队列1.2 RabbitMQ体系结构 2 RabbitMQ工作模式2.1 简单模式&#xff08;Simple Queue&#xff09;2.2 工作队列模式&#xff08;Work Queues&#xff09;2.3 发布/订阅模式&#xff08;Publish/Subscribe&#xff09;2.4 路由模式&#xff08;R…