用stata做面板数据回归分析基础作业

目录

1.导入数据集

2.面板数据有关信息

3.混合回归

4.随机效应模型

4.1随机效应模型or混合回归模型的选择:LM检验

4.2随机效应模型:两种估计方法

 A.FGLS法:广义离差模型

B.MLE法:极大似然估计

4.3双向随机效应模型

5.固定效应模型

5.1固定效应模型or混合回归之间的选择:

5.2固定效应模型估计方法

A.组内法:FE

B.LSDV法

C.一阶差分法FD

5.3.双向固定效应模型LSDV法

6.豪斯曼检验:固定效应模型or随机效应模型

6.1传统Hausman检验

6.2非传统Hausman检验

7.理论知识点补充

7.1一般建模流程(待完善补充)

7.2三种标准误

7.3FE与RE的估计方法总结

7.4工具变量

7.5动态面板数据


以面板数据mus08psidextract.dta为例:

1.导入数据集

stata自带数据集:Stata打开自带的数据合集_9997PZ的博客-CSDN博客_stata数据

外部导入:

. use "F:\个人嘿嘿嘿\北师大BNU\研一上-课业资料\商务与经济统计\作业1\mus08psidextract.dta",clear 

2.面板数据有关信息

面板数据是一种多维数据,一般具有两个维度:个体(组、类)和时间。

面板数据既含有n个个体截面的数据,也含有长为T的时间序列。

2.1设定面板数据的个体变量和时间变量

. xtset id t   //id:个体变量 t:时间变量 顺序不可以变
Panel variable: id (strongly balanced)Time variable: t, 1 to 7Delta: 1 unit

2.2显示面板数据的结构:

. xtdes

 2.3显示数据集中变量的统计特征:

. xtsum

. xtsum lwage ed exp exp2 wks id tVariable         |      Mean   Std. dev.       Min        Max |    Observations
-----------------+--------------------------------------------+----------------
lwage    overall |  6.676346   .4615122    4.60517      8.537 |     N =    4165between |             .3942387     5.3364   7.813596 |     n =     595within  |             .2404023   4.781808   8.621092 |     T =       7|                                            |
ed       overall |  12.84538   2.787995          4         17 |     N =    4165between |             2.790006          4         17 |     n =     595within  |                    0   12.84538   12.84538 |     T =       7|                                            |
exp      overall |  19.85378   10.96637          1         51 |     N =    4165between |             10.79018          4         48 |     n =     595within  |              2.00024   16.85378   22.85378 |     T =       7|                                            |
exp2     overall |   514.405   496.9962          1       2601 |     N =    4165between |             489.0495         20       2308 |     n =     595within  |             90.44581    231.405    807.405 |     T =       7|                                            |
wks      overall |  46.81152   5.129098          5         52 |     N =    4165between |             3.284016   31.57143   51.57143 |     n =     595within  |             3.941881    12.2401   63.66867 |     T =       7|                                            |
id       overall |       298   171.7821          1        595 |     N =    4165between |              171.906          1        595 |     n =     595within  |                    0        298        298 |     T =       7|                                            |
t        overall |         4    2.00024          1          7 |     N =    4165between |                    0          4          4 |     n =     595within  |              2.00024          1          7 |     T =       7. 

std.dev:基于样本估算标准偏差,反映数值相对于平均值的离散程度;

可以看出id的组内离散程度为0(同一个体内,个体无变化),t的组间离散程度为0(同一时间,每一个个体之间时间无差别);ed可以看作z_i{},是可以观测到的个体异质性;

3.混合回归

. reg y x1 x2 x3…,vce(cluster id)

其中vce(cluster id)【聚类标准误】可替换为:robust / r【稳健标准误】 or 什么都不加【普通标准误】,下面各种模型回归同理。

注:_cons为默认加入的常数项,如果要求不含常数项则使用:reg y x1 x2 x3…,nocons

reg lwage exp exp2 wks ed,vce(cluster id)  //使用聚类稳健标准误Linear regression                               Number of obs     =      4,165F(4, 594)         =      72.58Prob > F          =     0.0000R-squared         =     0.2836Root MSE          =     .39082(Std. err. adjusted for 595 clusters in id)
------------------------------------------------------------------------------|               Robustlwage | Coefficient  std. err.      t    P>|t|     [95% conf. interval]
-------------+----------------------------------------------------------------exp |    .044675   .0054385     8.21   0.000     .0339941     .055356exp2 |  -.0007156   .0001285    -5.57   0.000    -.0009679   -.0004633wks |    .005827   .0019284     3.02   0.003     .0020396    .0096144ed |   .0760407   .0052122    14.59   0.000     .0658042    .0862772_cons |   4.907961   .1399887    35.06   0.000     4.633028    5.182894
------------------------------------------------------------------------------

4.随机效应模型

4.1随机效应模型or混合回归模型的选择:LM检验

LM检验 检验是否存在个体效应 从而确定使用

(使用FGLS法会提供一个theta值,从而完成LM检验)

4.2随机效应模型:两种估计方法

 A.FGLS法:广义离差模型

. xtreg y x1 x2…, re r theta

. xtreg lwage exp exp2 wks ed, re r thetaRandom-effects GLS regression                   Number of obs     =      4,165
Group variable: id                              Number of groups  =        595R-squared:                                      Obs per group:Within  = 0.6340                                         min =          7Between = 0.1716                                         avg =        7.0Overall = 0.1830                                         max =          7Wald chi2(4)      =    1598.50
corr(u_i, X) = 0 (assumed)                      Prob > chi2       =     0.0000
theta        = .82280511(Std. err. adjusted for 595 clusters in id)
------------------------------------------------------------------------------|               Robustlwage | Coefficient  std. err.      z    P>|z|     [95% conf. interval]
-------------+----------------------------------------------------------------exp |   .0888609   .0039992    22.22   0.000     .0810227    .0966992exp2 |  -.0007726   .0000896    -8.62   0.000    -.0009481    -.000597wks |   .0009658   .0009259     1.04   0.297     -.000849    .0027806ed |   .1117099   .0083954    13.31   0.000     .0952552    .1281647_cons |   3.829366   .1333931    28.71   0.000     3.567921    4.090812
-------------+----------------------------------------------------------------sigma_u |  .31951859sigma_e |  .15220316rho |  .81505521   (fraction of variance due to u_i)
------------------------------------------------------------------------------

可以看到theta=0.8228,LM检验中:强烈拒绝“不存在个体随机效应”的原假设,个体效应存在,在混合回归和随机效应模型当中应该选择随机效应模型;

rho=0.8151 进一步证明ui部分在方程中起到重要的作用,是不可以被忽略的;

B.MLE法:极大似然估计

当扰动项服从正态分布时,可以使用此方法。

. xtreg y x1 x2 x3…,mle

4.3双向随机效应模型

FGLS(估计个体效应)+LSDV法(估计时间效应)估计

. xtreg y x1 x2 x3…i.year,re

5.固定效应模型

5.1固定效应模型or混合回归之间的选择:

H0:all ui=0

普通标准误的估计时会给出一个F检验结果:F=53.12 p=0.000 则拒绝原假设,即应当使用固定效应模型

5.2固定效应模型估计方法

A.组内法:FE

. xtreg y x1 x2…, fe 

缺点:无法估计出可观测的个体异质性z_i{}的系数\delta,所以下表中ed 为omitted状态

注意:xtreg下r(robust)等价于聚类稳健标准误

. xtreg lwage exp exp2 wks ed, fe //普通标准误
note: ed omitted because of collinearity.Fixed-effects (within) regression               Number of obs     =      4,165
Group variable: id                              Number of groups  =        595R-squared:                                      Obs per group:Within  = 0.6566                                         min =          7Between = 0.0276                                         avg =        7.0Overall = 0.0476                                         max =          7F(3,3567)         =    2273.74
corr(u_i, Xb) = -0.9107                         Prob > F          =     0.0000------------------------------------------------------------------------------lwage | Coefficient  Std. err.      t    P>|t|     [95% conf. interval]
-------------+----------------------------------------------------------------exp |   .1137879   .0024689    46.09   0.000     .1089473    .1186284exp2 |  -.0004244   .0000546    -7.77   0.000    -.0005315   -.0003173wks |   .0008359   .0005997     1.39   0.163    -.0003399    .0020116ed |          0  (omitted)_cons |   4.596396   .0389061   118.14   0.000     4.520116    4.672677
-------------+----------------------------------------------------------------sigma_u |  1.0362039sigma_e |  .15220316rho |  .97888036   (fraction of variance due to u_i)
------------------------------------------------------------------------------
F test that all u_i=0: F(594, 3567) = 53.12                  Prob > F = 0.0000
. xtreg lwage exp exp2 wks ed, fe vce(cluster id) //聚类稳健标准误
note: ed omitted because of collinearity.Fixed-effects (within) regression               Number of obs     =      4,165
Group variable: id                              Number of groups  =        595R-squared:                                      Obs per group:Within  = 0.6566                                         min =          7Between = 0.0276                                         avg =        7.0Overall = 0.0476                                         max =          7F(3,594)          =    1059.72
corr(u_i, Xb) = -0.9107                         Prob > F          =     0.0000(Std. err. adjusted for 595 clusters in id)
------------------------------------------------------------------------------|               Robustlwage | Coefficient  std. err.      t    P>|t|     [95% conf. interval]
-------------+----------------------------------------------------------------exp |   .1137879   .0040289    28.24   0.000     .1058753    .1217004exp2 |  -.0004244   .0000822    -5.16   0.000    -.0005858   -.0002629wks |   .0008359   .0008697     0.96   0.337    -.0008721    .0025439ed |          0  (omitted)_cons |   4.596396   .0600887    76.49   0.000     4.478384    4.714408
-------------+----------------------------------------------------------------sigma_u |  1.0362039sigma_e |  .15220316rho |  .97888036   (fraction of variance due to u_i)
------------------------------------------------------------------------------

B.LSDV法

. reg y x1 x2 x3…i.id,vce(cluster id)

i.id:表示根据变量id而产生的虚拟变量,生成n个虚拟变量(or 有截距项时生成n-1个)

优点:可以求出可观测的个体异质性z_i{}的系数\delta

C.一阶差分法FD

无专门命令,可以使用一些其他方法来附带进行(?待补充)

5.3.双向固定效应模型LSDV法

法一:. xtreg y x1 x2…i.year, fe r 

法二:. reg lwage exp exp2 wks ed i.id i.year, robust

若数据未变形:(如把1976-1982转为1-7)

. tab year,gen(year)

若数据已经为标准形式,则直接使用

. xtreg lwage exp exp2 wks ed i.t, fe r
note: ed omitted because of collinearity.
note: 7.t omitted because of collinearity.Fixed-effects (within) regression               Number of obs     =      4,165
Group variable: id                              Number of groups  =        595R-squared:                                      Obs per group:Within  = 0.6599                                         min =          7Between = 0.0275                                         avg =        7.0Overall = 0.0480                                         max =          7F(8,594)          =     412.33
corr(u_i, Xb) = -0.9089                         Prob > F          =     0.0000(Std. err. adjusted for 595 clusters in id)
------------------------------------------------------------------------------|               Robustlwage | Coefficient  std. err.      t    P>|t|     [95% conf. interval]
-------------+----------------------------------------------------------------exp |   .1119927   .0041184    27.19   0.000     .1039043    .1200812exp2 |  -.0004051   .0000834    -4.86   0.000    -.0005688   -.0002413wks |     .00068   .0008812     0.77   0.441    -.0010506    .0024105ed |          0  (omitted)|t |2  |  -.0083984   .0049321    -1.70   0.089    -.0180849    .00128813  |   .0259652   .0084359     3.08   0.002     .0093974    .04253294  |   .0289134   .0078093     3.70   0.000     .0135762    .04425065  |   .0239406   .0065275     3.67   0.000     .0111208    .03676046  |   .0069955   .0064617     1.08   0.279    -.0056949     .0196867  |          0  (omitted)|_cons |   4.618339   .0599451    77.04   0.000     4.500609    4.736069
-------------+----------------------------------------------------------------sigma_u |  1.0268811sigma_e |  .15159041rho |  .97867247   (fraction of variance due to u_i)
------------------------------------------------------------------------------

6.豪斯曼检验:固定效应模型or随机效应模型

6.1传统Hausman检验

(前提:ui与eit是独立同分布的)

. xtreg lwage exp exp2 wks ed, fe

. estimates store FE

. xtreg lwage exp exp2 wks ed, re theta

. estimates store RE

. hausman FE RE,constant sigmamore

注:必须使用普通标准误,不可以使用稳健标准误

若原假设成立,则认为ui与xi和eit无相关性,应当使用随机效应模型;

. hausman FE RE,constant sigmamore---- Coefficients ----|      (b)          (B)            (b-B)     sqrt(diag(V_b-V_B))|       FE           RE         Difference       Std. err.
-------------+----------------------------------------------------------------exp |    .1137879     .0888609        .0249269        .0012778exp2 |   -.0004244    -.0007726        .0003482        .0000285wks |    .0008359     .0009658       -.0001299        .0001108_cons |    4.596396     3.829366        .7670299               .
------------------------------------------------------------------------------b = Consistent under H0 and Ha; obtained from xtreg.B = Inconsistent under Ha, efficient under H0; obtained from xtreg.Test of H0: Difference in coefficients not systematicchi2(4) = (b-B)'[(V_b-V_B)^(-1)](b-B)= 1374.55
Prob > chi2 =  0.0000
(V_b-V_B is not positive definite). 

由结果来看p值为0.0000则强烈拒绝原假设,应当选择固定个体效应模型;

再对时间效应进行检验(?应当比较时间固定模型还是直接比较双向固定模型

6.2非传统Hausman检验

前提:ui与eit都不再是iid情况下

即当聚类稳健标准误与普通标准误相差较大时,显然不再满去传统Hausman检验的前提,此时要使用另一种方法:

H0:\gamma=0

. ssc install xtoverid

. xtreg y x1 x2 …,re r    //先运行聚类稳健标准误的RE

. xtoverid

. xtoverid //非传统豪斯曼检验Test of overidentifying restrictions: fixed vs random effects
Cross-section time-series model: xtreg re  robust cluster(id)
Sargan-Hansen statistic 1792.412  Chi-sq(3)   P-value = 0.0000

-----22.12.8 在期末复习(苦涩)补充一些知识点-----

7.理论知识点补充

7.1一般建模流程(待完善补充)

 7.2三种标准误

7.3FE与RE的估计方法总结

7.3.1固定效应模型:组内法、LSDV法、差分法

7.3.2随机效应模型估计方法:广义离差模型FGLS法、极大似然估计

此时OLS估计结果是一致的,但是由于复合扰动项中,有个体效应的存在,所以复合扰动项之间不满足自相关和同方差假设,则OLS回归结果虽然一致但不有效。

 7.4工具变量辅助检验

面板数据的内生性问题:

虽然面板数据的个体异质性可以一定程度上缓解遗漏变量问题,但是模型仍然可能存在内生性(测量误差、模型误设、双向因果等)。此时可以使用工具变量法。

7.4.1(固定效应模型)使用IV的步骤:

Step1:对模型变换以缓解遗漏变量的影响,模型组内离差(或一阶差分);

Step2:再使用IV,做2SLS;

7.4.2工具变量四个辅助检验

7.5动态面板数据

动态面板数据PDP:指解释变量中包含被解释变量的滞后项

是解决内生性问题的最后手段:用于解决遗漏变量以及双向因果导致的内生性。

三种常用估计方法:差分GMM、水平GMM、系统GMM。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/66065.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2月8日第壹简报,星期三,农历正月十八

2月8日第壹简报,星期三,农历正月十八坚持阅读,静待花开1. 土耳其强震已致土叙两国超5000人遇难、两万余人受伤,土总统宣布:实施国家紧急状态3个月;中国救援队82名队员赴土耳其实施国际救援,携搜…

“我经历了长达十年的‘洗脑’:现代 Web 开发,非 JavaScript 框架不可!”

【CSDN 编者按】说起 Web 开发,总是很容易想起 JavaScript,很少有人质疑过它的性能和必要性,而本文作者则认为:“这是一种洗脑”。 原文链接:https://www.spicyweb.dev/the-great-gaslighting-of-the-js-age/ 未经授权…

语音笔记APP哪个好 用它直接录音并整理很方便

很多人在记笔记的时候,喜欢用录音来辅助以便提高效率,尤其是当领导临时布置了一个比较复杂的任务或者听到了一段包含重要信息的话,你又来不及打字,那么就可以采取录音的方法,能够在一定程度上避免遗漏某些重要内容。录…

当ChatGPT应用在汽车行业,具体有哪些场景?

​ ChatGPT有潜力彻底改变汽车行业并将其提升到新的高度。在ChatGPT的加持下,该行业的多个领域都将取得重大变化。 利用ChatGPT作更高级的虚拟助理 你可能用过现有的虚拟助理,它们一系列的回复有时候让人不得不感叹一句“人工智障”!然而&a…

chatgpt赋能python:Python如何办公自动化

Python如何办公自动化 近年来,Python的应用越来越广泛,不仅在数据分析和机器学习领域得到了广泛的应用,还在办公自动化方面也越来越得到人们的关注。Python语言强大的数据处理能力、API调用能力和自动化能力,为我们提供了一种有效…

chatgpt赋能python:Python怎么办公自动化?

Python怎么办公自动化? 在现代社会,信息技术已经为我们带来了诸多便利。在工作和生活中,我们不仅需要处理许多数据,还需要按照一定流程进行操作。这样的任务可能非常琐碎而重复,让人感到疲惫。而采用Python进行自动化…

智能排班系统 【开源说明】

文章目录 引言说明讲讲开源开源要做什么了解开源协议项目的信息脱敏写好项目说明文档修改.gitignore 项目不完善点说明管理系统前端页面自适应做得不好部分页面体验不好 管理系统后端接口缺乏数据校验数据管理接口查询不够完善接口可以更加完善 开源仓库地址智能排班系统相关文…

借力表单设计器开源,助力实现办公自动化发展!

数字化转型是当今的发展潮流,有越来越多的企业对于数据管理和办公自动化发展深有体会,也习惯于采用低代码开发平台来实现更高效率的办公。在传统表单失去发展优势的当下,借力表单设计器开源工具,可以给企业带来提质增效的办公效率…

chatgpt赋能python:如何利用Python进行自动化办公

如何利用Python进行自动化办公 在现代办公环境中,自动化成为了一种趋势。利用计算机程序自动处理重复性劳动,可以提高生产效率和工作质量,同时也能够让工作更加轻松。Python作为一种常用的编程语言,在自动化办公中发挥了重要作用…

如何实现办公自动化?

办公自动化(OA)允许数据在没有人工干预的情况下流动。由于人工操作被排除在外,所以没有人为错误的风险。如今,办公自动化已经发展成无数的自动化和电子工具,改变了人们的工作方式。 办公自动化的好处 企业或多或少依…

Paper Reading:《Zeno:An Interactive Framework for Behavioral Evaluation of Machine Learning》

一枚科研小白的论文的阅读笔记,主要是为了记录自己的学习过程,前期读论文很多时候还是停留在解决语言障碍的阶段… 这篇文章也是极其粗浅的阅读 文章目录 一.论文简介二.常识、语料、术语积累1.术语2.生词3.表达积累 三.工作流总结 一.论文简介 论文放出…

最新RLHF拯救语言模型「胡说八道」!微调效果比ChatGPT更好,两名华人共同一作...

西风 发自 凹非寺量子位 | 公众号 QbitAI RLHF(基于人类反馈的强化学习)的一大缺点,终于被解决了! 没错,虽然RLHF是大语言模型“核心技巧”之一,然而这种方法也存在一个问题—— 它只会判断生成文本的整体效…

幼儿-综合素质【2】

1.材料分析题:材料:一天早上,陈一航蹦蹦跳跳地走进教室,在搬椅子时,他发现旁边小朋友的椅子上有一本书没有收好,便大声喊道:“余老师,这儿有一本书没有收。”余老师笑看说&#xff1…

教师资格考试--中学综合素质

综合素质 教育观 素质教育的基本内涵★★ 素质教育以提高国民素质为根本宗旨素质教育是面向全体学生的教育素质教育是促进学生全面发展的教育素质教育是促进学生个性发展的教育素质教育是以培养学生的创新精神个时间能力为重点的教育 记忆口诀:提素个性创两全 …

中学-综合素质【3】

1.量子概念的提出,第一次把能量的不连续性引入对自然过程的深入认识,对其后量子理论的进一步发展起到了重要作用。这一概念的提出者是(). A.普朗克 B.洛伦兹 C.爱因斯坦 D.麦克斯韦 2.公元395年,罗马帝国分裂为东、西…

幼儿-综合素质【1】

1.某幼儿园一直试着让幼儿做一些力所能及的事,如发勺子、分碗、搬凳子等。一天,小樱用乞求的目光注视着老师,轻声说:“老师,让我发一次勺子好吗?”老师说:“每次吃饭最慢,上课从不举…

中学-综合素质【1】

1.彤彤性格内向,基本不跟其他同学交往,课间常一个人在座位上看书。罗老师对她说:“你看同学们玩得多开心啊,你应该参加一些课外活动,多跟大家一起玩。下列说法中不恰当的是(). A.罗老师注重学生个性发展 B…

中学-综合素质【2】

1.量子概念的提出,第一次把能量的不连续性引入对自然过程的深入认识,对其后量子理论的进一步发展起到了重要作用。这一概念的提出者是(). A.普朗克 B.洛伦兹 C.爱因斯坦 D.麦克斯韦 2.公元395年,罗马帝国分裂为东、西…

数据流程图 状态图 流程图

数据流程图 状态图 流程图 数据流程图 数据流程图(DFD)提供了通过系统的数据流的图形表示。它逻辑上显示了我们的系统进程和外部接口或数据存储交换了哪些信息,但是它没有明确显示信息交换的时间或顺序。数据流程图是结构化系统分析和设计方…

业务逻辑流程图

用Axure注释逻辑 元件的逻辑有5种,具体如下: 功能逻辑:详细讲解该功能的逻辑。 交互逻辑:对页面之间的相互跳转进行说明。 视觉逻辑:对颜色,对图标的要求。 业务逻辑:讲一下该功能对应着什么业…