文章目录
- 数据导入及存储
- 变量的标签、审视数据
- 变量的标签
- 审视数据
- 数据删除
- 数据排序
- 画图
- 直方图
- 使用帮助文件
- 散点图
- 统计分析
- 描述性分析
- 频数分析
- 相关分析
- 生成新变量、计算器、终止命令
- 生成新变量
- 设置哑变量
- 修改变量名
- 更改变量内容
- 调用命令和终止命令
- 日志
- 命令库更新、学习资源
数据导入及存储
点击数据编辑按钮,进入数据编辑界面,如下图
数据编辑界面
复制Excel中的数据,到stata中,stata会弹出对话框提示第一行是否为变量名,选择后完成数据复制结果如下:
如果数据量比较大也可以通过导入的方式,入口为file-import-excel
数据导入之后就可以把数据窗口关闭,在变量窗口已经可以看到导入数据的变量了,如图:
点击快捷按钮保存导入的数据为stata文件。
保存完成后,后期如果需要使用就可以直接点击此文件即可,不需要再重新进行复制粘贴了。
变量的标签、审视数据
变量的标签
在导入数据后,变量管理器按钮,进入变量管理器,如下图。
此为变量管理器,在任务管理器中,可以在右侧选中变量,然后在左侧设置变量的标签,类型等,这里把变量s的标签改为schooling。点击Apply按钮完成设置。注意stata是区分大小写的,一般建议变量名都为小写字母
审视数据
在主界面中的Command输入代码“d”或者代码全称“describe”可以展示数据的整体情况,其中有数据的变量数行数,以及变量名称、变量类型、变量标签等信息。
如果想看具体某个变量的数据,可以使用代码“list+变量名”,如本次的“list s lnw”
如果只想看到部分数据可以用代码“in”,如本次的"list s lnw in 1/5",这里的意思就是看变量s和lnw的前五行。
如何需要对数据进行筛选可以使用代码"if"如本次使用的是"list s lnw if s>=16",结果就是筛选出所以变量s大于等于16的数据
如果仅仅只是想看数据,也可以使用菜单Data Editor,这两个按钮都可以进入数据菜单,但是不同的是左侧带有笔的图标代表可以编辑的数据菜单,右边带有放大镜的图标代表只读菜单。
数据删除
如果想删除数据可以用命令"drop",如果想要只保留某些数据的话可以使用命令"keep"
数据排序
使用命令sort 可以对数据进行排序如代码sort s 表示数据根据变量s进行升序排列。结果如下:
如果想对数据进行降薪排列,可以使用命令"gsort",如“gsort -s”表示以变量s降序排列数据,这里注意变量s之前有个负号。如果是gsort s就还是正序排列。
画图
直方图
画直方图使用命令hist,参数width(简写d)表示组宽,参数frequency(简写freq) 表示将纵坐标定为频数(默认使用密度)
代码为hist s,width(1) frequency,结果为:
使用帮助文件
如果对某个命令不清楚,可以使用help命令来查看这个命令的详细信息(和R语音比较像)
如help hist,结果如下:其中标蓝的表示都可以再次点击查看更新一步的信息。
散点图
使用命令scatter(简称sc)来画散点图,比如查看变量s和lnw之间的散点图可以使用代码 scatter s lnw 结果如下:
使用参数mlabel来对散点图进行标注,具体方法如下:其中gen是对变量进行赋值的命令,_n是系统默认的表示第n个观测值的代码。
结果如下:
统计分析
描述性分析
使用命令summarize(简写sum)来对变量进行描述性分析,比如使用代码summarize s,就是对变量s进行描述性分析,结果显示s的个数,均值,标准差,最大值,最小值,如下图:
注意,如果不特别指明变量,将对所有的变量进行描述性分析。如下图:
频数分析
如果需要进行频数分析,则可以使用命令tabulate(简写tab),可以统计变量的每个元素的个数,占比,累计占比等指标。如对变量s进行频数分析,如下图所示:
相关分析
使用命令pwcorr lnw s expr,sig star(0.5),其中pwcorr是进行相关分析的命令, lnw s expr是要分析的变量,sig和star是命令pwcorr的参数,sig表示显示相关系数的显著性水平即p值,star(0.05)表示给相关系数显著性水平低于0.05的相关系数打上星号。
结果如下:
生成新变量、计算器、终止命令
生成新变量
使用命令generate(简写gen),来生成新的变量,如生成变量s的对数作为新的变量,代码为gen lns = log(s),如要计算s的平方 项可以使用gen s2 = s^2,如果要生成变量s和expr的互动项可以使用 gen se = s*expr。如图:
设置哑变量
我们知道哑变量是只有元素0和1的变量,根据现有变量来生成哑变量,可以使用判定条件来设置,比如现有变量s表示上学的年限,上学年限大于等于16的表示接受了高等教育,否则就是没有接受高等教育,所以我们可以设置是否接受了高等教育这一哑变量,变量名称为colleg,判定条件就是变量s是否大于等于16,具体代码为 gen colleg = (s>=16)。结果如下
修改变量名
如果我们想对现有变量的名称进行修改,可以使用命令rename,如代码 rename colleg college,就把变量colleg重新命名为college。也可以使用变量管理器进行更改。
更改变量内容
如果需要更改变量内容,比如上面生成的变量college,是s大于等于16的值为1否则为0,现在修改为s大于等于15的值为1否则为0,可以使用命令drop先删除变量college,再重新创建college,也可以使用命名replace 之间替换变量。具体操作如下:
调用命令和终止命令
调用命令
终止命令
日志
保存日志
查看日志
命令库更新、学习资源
由于stata版本不同,有些命令可能无法执行,可以使用命令uptate all 更新命令。
stata 还有很多外部或非官方命令,需要下载在stata中使用。如最流行的stata非官方命令下载平台SSC,下载安装此平台的命令,可以使用代码 "SSC install 命令名"来下载安装命令
如果需要下载的命令不是在SSC平台的,需要把命令文件下载放置到stata的命令文件中
如果想搜索资料,可以使用命令search,此命令可以搜索此命令将搜索 Stata 帮助文件、Stata 常见问题、Stata 案例、StataJournal, Stata lechnical Bulletin等。代码为search 关键字。还可以使用命令findit 关键字。findit的搜索范围比search的范围更广。