你的工资是怎样被平均的?终于有人把平均数、中位数和众数讲明白了

722a04c5751af06043adf351ed0833ed.gif

导读:我们在数据处理时,要小心各种陷阱!人们习惯使用统计数据来简化事物描述,但错误的统计方法不仅不能反映事实,还会让数据变得毫无意义。

作者:徐晟

来源:大数据DT(ID:hzdashuju)

a6aff53c39e4d5aca1dd255307216978.png

有人曾统计了某家互联网公司的季度财报。结果显示,该公司员工平均月薪是其他同行的3~4倍。消息一出,立即引起人们热议。虽然后来这家公司出来辟谣,表明公开的酬金成本包括员工培训、福利开支、缴纳税金、商业保险、年终奖,但这并没能让大众信服。人们关心的问题是:统计平均工资的方法是否合理?

如果把一个普通员工和世界首富的工资放在一块取平均值,那么可以想象,普通人的工资几乎可以忽略不计。在一个企业中,20%的人占据了80%的工资总额。高收入的人比例偏少,但对平均工资的影响很大。

平均工资仅仅是经济领域的一个例子。生活中,我们会接触到各式各样的数据,它们以不同的形态展现。在处理一组数据时,平均值可以很好地代表这组数据的平均水平,但由于削峰填谷,它也势必会损失一部分信息,只能反映总体特征的一个方面。

想要掌握数据的全貌,就要了解数据的属性和性质。对于一组数据,我们首先要知道大部分数值落在哪里?也就是说,我们通常选择数据的“中间位置”,即反映数据集中趋势的统计量,来表示数据的中心。这里的度量方法有平均数、中位数、众数等。

01 平均数

平均数也叫平均值、均值,是统计学中最基本、最常用的一种定义一组数据特征的指标,用来描述数据的平均水平。计算平均数可以把所有数据相加再除以数据个数,比如{1,2,3,4,5}的平均数就是3。

尽管平均数是描述数据集最有用的一个统计量,但是它并非总是度量数据中心的最佳方法。最主要问题是平均数对极端值(比如离群点)很敏感,会被少数很低或很高的数值明显影响。为了抵消这种影响,可以使用截尾均值,即丢弃一部分高低极端值后计算均值。比如跳水比赛,就采用去掉最高分和最低分的截尾均值计分法。

02 中位数

中位数是将数据按大小顺序排列后处在中间位置的数,描述数据的中等水平。如果有奇数个数,则中位数是中间值;如果是偶数个数,则中位数一般取两个最中间值的平均值。它适用于对倾斜(非对称)数据的度量。

03 众数

众数是集合中出现频率最高的数值,描述数据的一般水平。众数的个数不一定是唯一的。一组数据中,可能会存在多个众数,也可能不存在众数。众数不仅适用于数值型的数据,对于非数值型的数据也同样适用。例如,{苹果,苹果,苹果,香蕉,梨,梨}这组数据中,没有均值和中位数,但是存在众数—苹果。

04 众数、中位数、均值的关系

如果一组数据的平均值、中位数、众数是同一个数,则说明它的数据分布是对称的。但这种情况不常见,更多情况下,数据是正倾斜负倾斜,如图2-1所示。

9481eefc5c7f420d46fa4eeb805f9422.png

▲图2-1 众数、中位数、均值的关系

收入数据就是典型的偏斜数据,大多数人是工薪阶层或退休老人,只有少数几个亿万富翁。收入数据如图2-1中的正倾斜数据,大多数人的收入集中在左侧,右侧有一条长长的尾巴,表示少数人的收入。这种分布不适合用平均数来描述。因为平均数对极端数据非常敏感,一两个亿万富翁,会拉高整个人群的收入水平线,使得收入均值比人们认知中的平均收入高出很多。

平均工资消除了大量低收入人群和少数巨额收入人群之间的差异。但如果换成众数也不合适,因为低收入人群占了工资比例的大多数区间。统计工资时的合理选择是统计中位数,它揭示了一半人和另一半人收入的分界线。

当然,并不是说中位数就是一个比平均数更好的统计量,只是它更适合工资统计。

引入统计量的意义就在于简化。比如老师告诉你说,孩子考试的排名处于班级里面的后10%,你就应该意识到他的学习成绩不太好,学习上要加把劲。在这个过程中,你不需要知道任何关于考试本身的内容,或孩子在考试中到底答对了多少题。一个排名数字,就能让你了解孩子的学习水平。

不过也正是由于统计量的简化,它不可避免地会丢失一些信息,其优点也是缺点。许多现象是无法只用一个数字来解释的。如果单凭一个统计量描述对象具有局限性,我们就应该尝试获得更多的数据,以及更多的细节。

关于作者:徐晟,某商业银行IT技术主管,毕业于上海交通大学,从事IT技术领域工作十余年,对科技发展、人工智能有自己独到的见解,专注于智能运维(AIOps)、数据可视化、容量管理等方面工作。

本文摘编自《大话机器智能:一书看透AI的底层运行逻辑》,经出版方授权发布。(ISBN:9787111696193)

60899695ce4816c584d6c978dc25c4ad.png

《大话机器智能:一书看透AI的底层运行逻辑》

转载请联系微信:DoctorData

推荐语:AI是什么?机器如何拥有“智能”?“智能”如何起作用?本书以通俗易懂的方式,勾勒人工智能的全貌,展现AI的底层运行逻辑,即AI是如何工作的。

61b4ddbb9820774d3ee2c874bb2c71c6.gif

更多精彩回顾

书讯 | 4月书讯(上)|  上新了,华章

书讯 | 4月书讯(下)| 上新了,华章

资讯 | 分布式系统一致性的本质,看这篇秒懂

书单 | 知乎高赞:有哪些你看了以后大呼过瘾的数据分析书?

干货 | Go语言精进之路:你知道什么是Go语言编程思维吗?

收藏 | 终于有人把Scrapy爬虫框架讲明白了

上新 | Verilog HDL与FPGA数字系统设计第2版

赠书 | 【第101期】什么是中台架构?真的“烧钱”吗?

活动 | 【向上突破系列】第1期:互联网裁员潮下,去还是留?

直播 |重磅!分布式数据存储与一致性解决方案峰会来袭

7a2b4c2325eeed09b15abce2770a671f.gif

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/67644.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2021年2月程序员工资统计,平均15144元

2021年2月采集样本370020人。2021年2月程序员平均工资15144元,工资中位数12500元,其中95%的人的工资介于5250元到37500元。 一年工资变化: 这里出现了神奇的一幕,去年也是这个时候工资大涨。这是不是有什么规律呢?这个…

2020年12月程序员工资统计,平均14222元

2020年12月全国招收程序员394699人。2020年12月全国程序员平均工资14222元,工资中位数12500元,其中96%的人的工资介于3250元到62500元。 从图上看,工资是真的降了,吓得我瑟瑟发抖。希望明年涨回来。 城市 排名city平均工资最低工…

day26 员工薪水中位数

569. 员工薪水中位数 写一个SQL查询,找出每个公司的工资中位数。 以 任意顺序 返回结果表。 查询结果格式如下所示。 SQL:方法一 select id, company, salary from (selectid, company, salary,row_number() over(partition by company order by s…

建设银行IT审计体系概况及实施策略

建设银行IT审计体系概况及实施策略 https://www.toutiao.com/i6950614591236030990/?tt_fromweixin&utm_campaignclient_share&wxshare_count1&timestamp1618412086&appnews_article&utm_sourceweixin&utm_mediumtoutiao_ios&use_new_style1&…

财务欺诈研究中常用的违规类型

财务欺诈研究中常用的违规类型 针对中国公司披露欺诈(Disclosure fraud)会计欺诈(Accounting fraud)其他欺诈(Other fraud)CSMAR数据库中存在,但文章中鲜有涉及的违规类型参考文献 针对美国公司 针对中国公…

基于大数据的银行反欺诈的分析报告 【转载,可用于风控系统架设借鉴】

转载至 https://www.cnblogs.com/yueyebigdata/p/5893454.html Growth跃爷Hacker (怕收藏至浏览器文件夹有天会有遗漏,转至自己博客中,推荐去看原文) 0,大数据知识背景。 在我第一次接触大数据的时候,那…

如何在公司审计中保持安全

如何在公司审计中保持安全 如今,财务弹性是决定您的公司能否在不确定时期适应和发展的主要属性之一。这可能令人很惊讶,但您的年度业务审计可以成为您提高业务敏捷性的秘密武器。它通过确定内部控制和财务报告的效果以及哪些流程改进应该在您的优先级列…

信用卡客户风险分析与评价

1、处理信用卡数据异常值 1.训练要点 (1)熟悉信用卡的基本业务知识。 (2)掌握异常值的识别与处理方法。 2.需求说明 为了推进信用卡业务良性发展,减少坏账风险,各大银行都进行了信用卡客户风险识别的相关工作,建立了相应的客户风险识别模型。…

会话存档如何帮助企业风控、实现金融行业审计?

会话存档于2020年7月面向全行业开放,此前是企业微信仅面向金融行业开放的风控管理工具。会话存档的推出与运用,在满足金融行业对于企业微信聊天记录留档刚需的同时,也满足了各行业对于员工监管、信息安全的诉求。今天我将为您着重讲解会话存档…

FRM银行操作风险计量

FRM金融风险管理师二级科目:操作风险管理2019年版本 思维导图,链接:https://pan.baidu.com/s/1WQo4XIIiZfijXnwhF_LLOw 密码:0043 一、什么是操作风险? 所谓操作风险(Operational Risk),指的是由不完善或有问题的内部程序、员工和信息科技系统,以及外部事件所造成损失…

达观银行询证函解决方案,文档智能审核技术提升审计回函业务往来效率

银行询证函是指会计师事务所在执行审计过程中,以被审计企业名义向银行发出的,用以验证该企业在银行的对公业务以及出资情况是否真实、合法、完整的询证性书面文件。银行根据询证的项目对客户账户信息等进行查证及核实后,予以回函。 按照财政部…

银行客户信用风险评估项目

银行客户信用风险评估项目 要求: 补全并调试每部分代码,在代码后面附输出结果截图。 说明: 4.5-4.10特征分布,做法相同(第一次) 4.11-4.14连续型数据特征分布,做法相同(第一次&am…

ChatGPT漫谈(三)

AIGC(AI Generated Content)指的是使用人工智能技术生成的内容,包括文字、图像、视频等多种形式。通过机器学习、深度学习等技术,AI系统可以学习和模仿人类的创作风格和思维模式,自动生成大量高质量的内容。AIGC被视为继用户生成内容(UGC)和专业生成内容(PGC)之后的下…

科大讯飞星火认知大模型怎么样?

“鉴于SparkDesk服务目前处于内部用户体验阶段,所有与SparkDesk相关的交互内容、技术参数等信息均被视为保密信息。您了解并同意,且有责任对这些保密信息严格保密,您不得以任何方式(包括但不限于截图、录屏、拍照等)披…

科大讯飞发布星火认知大模型

5月6日,讯飞正式发布星火,寓意:星星之火 可以燎原。 发布会之后,市场也给出了非常积极的回应,周一股价直接涨停。 相对于百度,发布文心一言的时候,股价一边掉了10%,成绩还是非常亮眼…

IBM打响用AI取代人类岗位的第一枪,约7800人被永久淘汰

夕小瑶科技说 分享来源 | 量子位 “这不是演习,AI让人失业来真的了!”就在这个劳动节假期,科技巨头IBM宣布:暂缓可以被AI取代的岗位的招聘,约7800人将被永久淘汰。 尽管“我们要被AI取代”的唬人消息不是第一次出现了&…

有了这些 AI 工具,健康和财富兼得「GitHub 热点速览」

作者:HelloGitHub-小鱼干 新的一周,又有什么新的 AI 应用呢?在 AI 专场,这次是文本生语音和双语对话模型,前者能解决你的语音问题,后者则是清华开源的模型,能让你搞个自己的类 ChatGPT 对话助手…

无法启动程序,拒绝访问解决方法

出现上面错误,我的情况是这样的,解决方案中有3个项目,运行的时候出现这个问题, 解决方法就是把需要运行出结果的那个项目右击设置为启动项目。

远程服务器不允许匿名登录,匿名远程访问COM+应用时被拒绝访问的问题

匿名远程访问COM应用时被拒绝访问的问题 08/28/2011 3 minutes to read In this article 有个客户在一个Win2k3的域下建立了一个COM应用服务器,而客户端是一个工作组机器。 为了重现这个场景,我们按照以下的方式,允许以匿名的方式访问调用COM…

5 分钟搞懂 BFF

随着微服务架构越来越复杂,前端需要和越来越多的后端服务交互,为了解决前端的复杂性问题,提出了 BFF 架构。原文: What is a BFF? And how to build one? 现在谁还会构建单体服务?微服务才是正确的选择!但这不是一个…