多元线性回归模型及stata实现:总论
一、模型
Y=β0+β1X1+β2X2+⋯+βnXn+e
- Y: Dependent variable(因变量、应变量、反应变量、响应变量、被解释变量等)
- X1、X2⋯Xn:Independent variable(自变量、解释变量、控制变量)
如果重点探究一个因素与另一个因素的作用时,纳入模型的其他X通常称为叫控制变量 - β1、β2⋯βn:偏回归系数、回归系数(每个βn表示控制其他X时,Xn每增加一个单位,对Y的边际效应)
- e: 残差项、残差、扰动项等(代表不包含在模型中的解释变量和其他一些随机因素对被解释变量的总影响项)
- β0,截距,常数项。表示所有自变量为0时的Y值。(有时候需要注意,如果自变量不可能等于0,这个值的意义需要考虑;如果需要真实的截距值,可以用Xi-Xmin,Xi-Xmean替代每个Xi。)
残差的性质非常重要
二、条件/假设
2.1 严格最小二乘估计(OLS)的条件和假设
- 假设1: 因变量为连续变量(二值、有序、计数等永其他模型)
- 假设2:Y与X1、X2⋯Xn之间存在线性关系(当然:X可以为分类)
- 假设3:独立性:因变量Y取值相互独立,即残差间相互独立,不存在自相关。主要和抽样、时间序列数据等有关 | 采用自回归模型(Autoregressive model,简称AR模型,用x预测 x(自己);所以叫做自回归)等解决。
- 假设4:残差方差齐性:标准化残差的大小不随变量取值的改变而改变(残差图)
- 假设5:正态性:就自变量的任何一个线性组合,应变量y均服从正态分布,即要求残差ei服从正态分布
个 - 假设6:自变量间不存在共线性
- 假设7:不受异常值影响
- 条件8:样本量至少为自变量个数的5~10倍,20倍以上为宜
注:学者认为,至少大于30个,最好100个以上就可以算大样本了
而且,以上部分假设和条件在一定条件下是可以放松的。
2.2 放松的OLS假设:大样本OLS
假设1、2、6、7、8是必须的(线性性、不存在共线性、不受强离群值影响、样本量充足是必须得);
假设3、4、5会做在一定程度的放松;即残差的球形假定(独立、正态、等方差)相对放松。
三、条件/假设的stata验证
stata回归命令
regression Y X1 X2 X3……Xn
reg Y X1 i.X2 X3……Xn / 若存在分类变量,在变量名称前加上i. 即可,如i.X2;stata 里面的命令可以缩写,只要缩写不产生歧义即可;
条件/假设
1. 假设1的判断:直接看,possion回归等需要验证(已经不属于简单的多元线性回归了);
2.线性性的判断: 分别做Y与每个X之间的散点图、拟合图。不满足时可以转换数据,加平方项、三次方项、分段回归等;
scatter Y X1
scatter Y X2
……
lowess Y X1
lowess Y X2
3. 自相关的判断:如果抽样没问题,不是时间序列数据,一般不会有自相关。若针对时间序列数据,可以如下检验;
如果原数据不是时间序列数据,则需要自行定义一个:
gen n=_n / 生成一个时间序列的标志变量ntsset n / 将这个数据集定义为依据时间序列标志变量n定义的时间序列数据
检验方法
(1) 绘制残差图
predict e,r / 生成残差值
scatter eLe / 生成残差散点图
(2) DW检验(杜宾-瓦特森检验)
estat dwatson / 杜宾-瓦特森检验
若DW值在1.8-2.2之间时接受原假设,说明模型不存在一阶自相关,若DW值接近0或4,则拒绝原假设,认为存在一阶自相关。若落在模糊区域,则无法判断。
DW接近2,残差间相关性差
DW接近0,残差间正相关
DW接近4,残差负相关
(3)BG检验
estat bgodfrey / BG检验
若输出的P-Value显著小于0.05,则拒绝原假设,认为存在序列相关。
4. 残差方差齐性的判断:残差的方差齐下,用异方差检验、绘制残差图等;
white检验
imtest,white / white检验
如果输出的P-Value显著小于0.05,则拒绝原假设,认为存在异方差性。
残差图
reg Y X1 X2…… / 先做完回归
rvfplot
5. 残差正态性:绘制标准化残差的直方图、茎叶图、正态概率分布图(PP图)等;
残差的偏度、峰度等
predict residual_1 , residual / 得到残差,取名residual_1
histogram residual_1 / 方法1. 绘制直方图看看
sum residual_1 ,detail / 方法2. 可以选择通过偏度、峰度来看
qnorm residual_1 / 方法3 ,QQ图
sktest residual_1 / 正态性检验 也可以用 swilk residual_1, sfrancia residual_1等
6. 多重共线性:VIF检验;
estat vif / 方差扩大因子法检验
VIF需要用在线性回归之后,若为logistic回归,先替换为线性回归,做完再做vif检验。
一般认为:
VIF≥3,有多重共线性;
VIF≥6,比较严重多重共线性
VIF≥10,非常严重的多重共线性;
7. 异常值检验:变量描述、箱式图;
graph box Y / 方法1 , 绘制Y的箱式图
sum Y,detail / 方法2 , 对Y进行详细描述
当然,绘制散点图的时候就能发现异常值。
四、不满足条件 / 假设的解决办法
1. 不满足线性关系:用非线性回归模型,或变量转换、加多次项(平方项、三次方项)、分段回归等
2. 不满足残差独立性:自回归(Autoregressive model,简称ARM)、广义估计方程(Generalized Estimated Equation, GEE,多层线性模型(multi-level analysis model)
3. 不满足残差方差齐性、正态性:使用稳健标准差、 加权最小二乘法(Weighted Least Squares,WLS)、分层回归(hierarchical multiple regression)等
4. 不满足多重共线性:剔除部分自变量、逐步回归法选择变量、岭回归(Ridge Regression)等
5. 样本量不足:增加样本含量
当然,以上假设和条件在一定条件下是可以放松的。
推荐阅读:
正态性/方差齐性检验stata实现
stata学习笔记
博客持续更新
主要参考
陈强 计量经济学
医咖会
知乎
其他互联网资料