如何用Stata完成(shui)一篇经济学论文(十一):分组和去重

文章目录

  • 分组
  • 去重

不出意外的话,这应该是stata有关数据处理的最后一篇。emmm,其实我一开始只打算写数据处理部分的stata教程,因为我觉得对于我来说,数据处理才是最头疼的部分。不过关于后面回归,还是有些东西想跟大家分享一下(开始挖坑),后面能写多少,就看造化吧,这里还是说一句,数据处理部分完结撒花~~

分组

Stata中分组命令其实有by和bysort两个,但根据官方文档:“by and bysort are really the same command; bysort is just by with the sort option.” 所以此处只介绍bysort命令。
直接上代码:

* 官方代码 *
bysort varlist: stata_command

bysort后接用于分组的变量名(可以有多个),再接要进行的stata操作。举个例子:

* 使用系统数据库 *
sysuse auto
* 生成国产车和进口车分别的均价 *
bys foreign :egen avg_price = mean(price)
* 根据foreign以及headroom进行分类生成均价 *
bys foreign headroom :egen avg_price1 = mean(price)

如果大家运行了这段代码,可以看到bysort命令不仅仅根据变量进行分组计算,同时还对数据进行了排序,排序依据就是我们分组所用的变量。(图一为使用bysort命令前,图二为使用命令后)
在这里插入图片描述
在这里插入图片描述

去重

有时我们数据有重复,我们就可以使用duplicates命令进行去重,我比较常用的duplicates用法有两种:

* 计算重复的个数,并将这个计数生成新变量 *
duplicates tag variable_list, generate(new_variable)
* 根据指定变量找出重复值,并去重 *
duplicates drop varable_list, force

这里可以看出,duplicates tag的功能有点类似于bysort后生成一个计数变量。这里对该命令两种用法依然举个例子,使用之前的数据库:

sysuse auto,clear
* 根据汽车的headroom进行分类,并生成变量count*
duplicates tag headroom, g(count)
* 根据汽车的headroom以及foreign变量进行去重 *
duplicates drop headroom foreign, force

注意这里duplicates drop后记得加上", force",否则会报错。

References
bysort 官方文档
duplicates 官方文档

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/52095.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

卷积神经网络之父的强人工智能路线图:自监督,推理,规划

导读 2023 年 6 月 9 日,智源大会第一天。在这场众星云集的盛会中。目前「深度学习三驾马车」中最活跃的 Yann LeCun 教授带来了重磅演讲「朝向能学习, 思考和计划的机器进发( Towards Machines that can Learn, Reason, and Plan&#xff09…

双色球彩票训练任务含对比

玩法规则:“双色球”每注投注号码由 6 个红色球号码和 1 个蓝色球号码 组成。红色球号码从 1—33 中选择,蓝色球号码从 1—16 中选择。 package section_6_1008;import java.util.Random; import java.util.Scanner;public class section_6_1008 {publ…

一文读懂 OpenAI 创始人的「世界币」

作者 | 美漪 大概所有人,都曾经有这样一个梦想:「啥也不干,天天躺着就有人给发钱。」 现在,这个从各种角度看起来都是绝对的「白日梦」,真的有机会实现了。 当地时间 7 月 24 日,OpenAI 掌门人 Sam Altman …

书中自有黄金屋系列9:值得反复阅读的一本书《向上生长》

如果要说哪一本书对我影响最大,那肯定是这本我反复读了五遍以上九边写的《向上生长》了。很多深刻的人生道理被作者用通俗易懂的方式讲解说明,这才是最发人深省的。下面是我读书的一些笔记和思考: 1.人为什么要学习 就像人不吃饭就会死亡&…

Gavin老师Transformer直播课感悟 - Rasa对话机器人项目实战之保险行业Insurance Bot架构设计、流程分析、状态管理及智能对话实验剖析(五十五)

本文继续围绕工业级业务对话平台和框架Rasa,对Rasa对话机器人项目实战之保险行业Insurance Bot架构设计、流程分析、状态管理及基于Rasa Interactive的智能对话实验进行分析。 一、Rasa对话机器人项目实战之保险行业Insurance Bot架构设计、流程分析、状态管理及基于Rasa Inte…

GPT3.5之模仿例子完成任务

首先导入open_ai key import openai import os from dotenv import load_dotenv, find_dotenv # 导入第三方库_ load_dotenv(find_dotenv()) # 读取系统中的环境变量openai.api_key os.getenv(OPENAI_API_KEY) # path1.api_key os.getenv(path) print(openai.api_key) # p…

与 ChatGPT 进行有效交互的几种策略

在这篇文章中,您将了解即时工程。尤其, 如何在提示中提供对响应影响最大的信息什么是角色、正面和负面提示、零样本提示等如何迭代使用提示来利用 ChatGPT 的对话性质 废话不多说直接开始吧!!! 提示原则 快速工程是有…

随机森林(Random Forest)通俗教程

目录 1 什么是随机森林?2 随机森林的特点3 随机森林的相关基础知识4 随机森林的生成5 袋外错误率(oob error)6 随机森林工作原理解释的一个简单例子7 随机森林的Python实现8 参考内容 1 什么是随机森林? 作为新兴起的、高度灵活的…

加密流量分类-论文9:DarknetSec: A novel self-attentive deep learning method for darknet traffic.....

加密流量分类-论文9:DarknetSec: A novel self-attentive deep learning method for darknet traffic classification and application identification 0、摘要1、文章核心观点引入2、模型结构2.1 模型总览2.2 预处理层2.4 特征提取层 4、实验5、总结与思考 0、摘要…

陌陌X-SIGN算法HOOK

文章目录 前言应用到的工具java 层分析frida hook aesEncode,a,sign 这三个方法总结预告: 下章节我们讲:陌陌X-SIGN还原 前言 学习是必然的,一路并不是平台的到道路,总要有点意外和惊喜。人嘛!…

152.网络安全渗透测试—[Cobalt Strike系列]—[会话管理/派生]

我认为,无论是学习安全还是从事安全的人多多少少都会有些许的情怀和使命感!!! 文章目录 一、会话管理1、实验环境2、会话派生(1)128的cs会话派生给128的cs本身(2)128的cs会话派生给…

森林攻略

1.存档攻略 C盘/ Users / Administrator / AppData / LocalLow / SKS / The forest / 一列数字 你保存的存档,就在那个名称全是数字的文件夹中,只需把其中的存档文件保存在U盘或网盘中,下次玩时,把保存的存档文件放到存档文件夹…

Isolation Forest孤立森林(二)之sklearn实现,源码分析

孤立森林算法sklearn实现,源码分析 算法一: 首先初始化一些参数 class sklearn.ensemble.IsolationForest(n_estimators100, max_samples’auto’, contamination’legacy’, max_features1.0, bootstrapFalse, n_jobsNone, behaviour’old’, random_stateNone, v…

森林图

森林图 以统计指标和统计分析方法为基础,用数值计算绘制出的图形,通常是在平面直角坐标系中,以一条垂直的无效 线(0或者1)为中心,用平衡于x轴的多条线段描述每个组指标的中值和可信区间,最后一…

BFT 最前线 | 互联网惊现 AI 鬼城,中国电信天翼云将发布预训练大模型,周鸿祎谈“万模大战”

文 | BFT机器人 01 网易CEO 丁磊:人工智能价值已被引导到生产第一线 网易数帆推出 CodeWave 智能开发平台。据了解,网易数帆结合自身产品的定位,面向智能编程垂直领域推出大模型,并接入到智能开发平台中。网易 CEO 丁磊表示&…

竞逐对话式AI,百度、字节各有千秋

随着OpenAI陆续发布的ChatGPT引发了AI界热议,新一代的AI热度便开始持续走高。与此同时,以ChatGPT模型为代表的大型预训练模型的出现,也使得对话式AI的生成能力和智能水平得到了飞跃式的提升,得益于此,对话式AI的发展又…

老罗的聊天宝,Low的另一面

昨天3款社交APP在同一天开发布会,而老罗的聊天宝是最不被看好的哪一个。 聊天宝这款产品在朋友圈不少人说low得不行,名字浓浓的山寨气息,icon 更不用说,一个金灿灿的元宝,我也觉得它low。 感觉时空穿越,没有…

专访罗升阳:老罗的Android之旅

【http://www.csdn.net/article/2014-08-15/2821226】 专访罗升阳:老罗的Android之旅 发表于 2014-08-15 14:13| 2098次阅读| 来源 CSDN| 8 条评论| 作者 钱曙光 社区问答 访谈 罗升阳 Android Framework Java 操作系统 allowtransparency"true" frameb…

小红书内测淘宝外链,小红书商业化布局加速?!

临近双十一之际,小红书显得格外活跃。一个新的流量风口即将出现,小红书品牌商家会面临怎样的机遇和挑战呢? ▌淘宝外链从直播间到种草笔记 早在今年8月,小红书头部达人“爱臭美的狗甜儿”(小红书粉丝167万&#xff0…

人工智能 charGPT 机器学习 算力 技术相关(对于常用框架、库、技术)等名词的解释收集整理和自我理解

人工智能 Artificial Intelligence 已经上升到国家战略层面,早在2017年国务院就印发了《新一代人工智能规划》 还有新基建中信息基础设施建设所包含的数据中心,智能中心等算计设施。 包括,图像识别,语音识别,自然语言…