可汗学院统计学1-16课笔记

[第1课] 均值 中位数 众数

  • 均值(平均值) = 数据之和 / 数据个数
  • 中位数 = 数据排序后,处在中间的数(如果两位数取平均值)
  • 众数 = 出现次数最多的数,一组数据可以有多个众数
import numpy as np
import pandas as pd#定义数据
data=np.array([1,2,2,3,3,4])# 均值
print(f'mean(average) = {np.mean(data)}')# 中位数
print(f'median = {np.median(data)}')# 众数
df = pd.DataFrame(data)
print(f'mode = {df[0].mode()}')
mean(average) = 2.5
median = 2.5
mode = 0    2
1    3
dtype: int32

[第2课] 极差 中程数

  • 极差 = 最大数 - 最小数
  • 中程数 = 最大数和最小数的均值
import numpy as np#定义数据
data=np.array([1,2,2,3,3,4])x = np.array([np.max(data), np.min(data)])#最大数
print(f'max = {x[0]}')#最小数
print(f'min = {x[1]}')# 极差
print(f'range = {x[0]-x[1]}')
print(f'range = {np.ptp(data)}')# 中程数
print(f'midrange = {x.sum()/x.size}')
print(f'midrange = {np.mean(x)}')
max = 4
min = 1
range = 3
range = 3
midrange = 2.5
midrange = 2.5

[第3课] 象形统计图

在这里插入图片描述

如上图所示:
一滴血代表8个人,
O+型血有8滴,表示的人数为 8 × 8 8\times8 8×8=64人;
O-血型人数为 8 × 2 8\times2 8×2=16人

[第4课] 条形图

本节简单不再详述
在这里插入图片描述

[第5课] 线形图

本节简单不再详述
在这里插入图片描述

[第6课] 饼图

本节简单不再详述
在这里插入图片描述

[第7课] 误导人的线形图

本节简单不再详述

[第8课] 茎叶图

在这里插入图片描述

上图是12个足球队员的各自得分,总共得多少分?
Stem:得分十位数
Leaf:得分个位数
总计得分:(0+0+2+4+7+7+9) + (11+11+11+13+18) + (20)

[第9课] 箱线图

在这里插入图片描述

箱式图,是指—种描述数据分布的统计图,是表述最小值、第一四分位数、中位数、第三四分位数与最大值的一种图形方法。它也可以粗略地看出数据是否具有对称性,分布的分散程度等信息[1]。

饭店老板调查了一些位顾客,他们来的地方距离饭店分别为14,6,3,2,…,10,22,20。用什么图表示这些距离的分布比较直观呢?(箱线图)

首先对这些数据进行排序,得出数据个数为17,最小值为1,最大值为22,中位数为6。

import numpy as np#定义数据
data=np.array([14,6,3,2,4,15,11,8,1,7,2,1,3,4,10,22,20])#排序
data=np.sort(data)
print(f'data = {data}')#数据个数
print(f'size = {data.size}')# 中位数
print(f'median = {np.median(data)}')
data = [ 1  1  2  2  3  3  4  4  6  7  8 10 11 14 15 20 22]
size = 17
median = 6.0

取左边8位数和右边8位数,各取中位数,作为盒子的左(2.5)、右(14)坐标画盒子;最小值(1)作为左边线的坐标点,最大值(22)作为右边线的坐标点,连上盒子;中位数(6)是盒子内部竖线坐标点。

data_left=data[0:8]
print(f'data_left = {data_left}')
print(f'median_left = {np.median(data_left)}')data_right=data[10:]
print(f'data_right = {data_right}')
print(f'median_right = {np.median(data_right)}')
data_left = [1 1 2 2 3 3 4 4]
median_left = 2.5
data_right = [ 8 10 11 14 15 20 22]
median_right = 14.0

如下图所示:

在这里插入图片描述
可以用Python绘制箱线图:

import numpy as np 
import matplotlib.pyplot as plt 
import pandas as pddata = np.array([14, 6, 3, 2, 4, 15, 11, 8, 1, 7, 2, 1, 3, 4, 10, 22, 20])
df = pd.DataFrame({'distance':data})
df.boxplot(patch_artist=True,showmeans=True,
)plt.show()

在这里插入图片描述

补充材料:

四分位数:四分位数有三个,在盒子的左右和中间位置,上图分别是 Q 1 = 2.5 Q1=2.5 Q1=2.5 Q 2 = 6 Q2=6 Q2=6 Q 3 = 12.5 Q3=12.5 Q3=12.5
四分位数的位置:
假设有n项,那么Q1位置在 n + 1 4 \frac{n+1}{4} 4n+1、Q2位置在 n + 1 2 \frac{n+1}{2} 2n+1、Q3位置在 3 ( n + 1 ) 4 \frac{3(n+1)}{4} 43(n+1)

如果(n+1)不为4的整数倍数,按上述分式计算出来的四分位数位置就带有小数,这时,有关的四分位数就应该是与该小数相邻的两个整数位置上的标志值的平均数,权数的大小取决于两个整数位置距离的远近,距离越近,权数越大,距离越远,权数越小,权数之和等于1。

【例】某车间某月份的工人生产某产品的数量分别为13、13.5、13.8、13.9、14、14.6、14.8、15、15.2、15.4公斤,则三个四分位数的位置分别为:

Q1 => (10+1)/4=2.75
Q2 => (10+1)/2=5.5
Q3 => 3*(10+1)/4=8.25

即变量数列中的第2.75项、第5.5项、第8.25项工人的某种产品产量分别为下四分位数、中位数和上四分位数。即:

Q1 = 0.25*第二项 + 0.75*第三项 = 13.75

参考:https://blog.csdn.net/kevinelstri/article/details/52937236

[第10课] 箱线图2

在这里插入图片描述

上图是100棵树的树龄箱线图,问树龄极差是多少,树龄中位数是多少?

由图可以看出:最小值是8,最大值是50,所以极差是50-8=42;中位数就是盒子里的竖线坐标21。

[第11课] 统计:集中趋势

集中趋势 (central tendency) 又称“数据的中心位置”,再次介绍了均值,中位数和众数。见第1课

[第12课] 统计:样本和总体

提出样本和总体的概念。比如求美国所有男性的平均身高,可以抽取部分样本数据计算平均值 X ‾ = ∑ i = 1 N x i N = x 1 + x 2 + . . . + x N N \overline{X}={ {\sum\limits_{i=1}^{N}x_i}\over{N} }={x_1+x_2+...+x_N \over N} X=Ni=1Nxi=Nx1+x2+...+xN,一定程度上代表了总体均值 μ \mu μ

∑ \sum 读作sum

[第13课] 统计:总体方差

方差(variance)用来描述数据和均值之间的偏离程度 。 σ 2 \sigma^2 σ2 读作 sigma square

方差公式: σ 2 = ∑ i = 1 N ( x i − μ ) 2 N \sigma^2={ {\sum\limits_{i=1}^{N}(x_i-\mu)^2}\over{N} } σ2=Ni=1N(xiμ)2

例如数据 1,2,3,4, 平均值是 1 + 2 + 3 3 = 2 {1+2+3\over3}=2 31+2+3=2,总体方差是 ( 1 − 2 ) 2 + ( 2 − 2 ) 2 + ( 3 − 2 ) 2 3 = 2 3 = 0.666... {(1-2)^2+(2-2)^2+(3-2)^2\over3}={2\over3}=0.666... 3(12)2+(22)2+(32)2=32=0.666...

import numpy as np#定义数据
data=np.array([1,2,3])# 均值
print(f'mean(average) = {np.mean(data)}')# 方差
print(f'variance = {np.var(data)}')
mean(average) = 2.0
variance = 0.6666666666666666

[第14课] 统计:样本方差

样本方差跟总体方差公式不一样: S 2 = ∑ i = 1 n ( x i − X ‾ ) 2 n − 1 S^2={ {\sum\limits_{i=1}^{n}(x_i-\overline{X})^2}\over{n-1} } S2=n1i=1n(xiX)2 注意是n-1而不是n。 详见《彻底理解样本方差为何除以n-1》

例如数据 1,2,3,4, 平均值是 1 + 2 + 3 3 = 2 {1+2+3\over3}=2 31+2+3=2,样本方差是 ( 1 − 2 ) 2 + ( 2 − 2 ) 2 + ( 3 − 2 ) 2 3 − 1 = 2 3 − 1 = 1 {(1-2)^2+(2-2)^2+(3-2)^2\over3-1}={2\over3-1}=1 31(12)2+(22)2+(32)2=312=1

import numpy as np#定义数据
data=np.array([1,2,3])# 均值
print(f'mean(average) = {np.mean(data)}')# 样本方差
print(f'sample variance = {np.var(data,ddof=1)}')
mean(average) = 2.0
sample variance = 1.0

[第15课] 统计:标准差

标准差 (standard deviation)是表述数据和均值之间的偏离程度的另一个重要标志。它等于方差的平方根。
标准差公式: σ = σ 2 \sigma=\sqrt{\sigma^2} σ=σ2
样本标准差公式: S = S 2 S=\sqrt{S^2} S=S2

import numpy as np#定义数据
data=np.array([1,2,3])# 方差
print(f'variance = {np.var(data)}')
# 标准差
print(f'standard deviation = {np.std(data)}')# 样本方差
print(f'sample variance = {np.var(data,ddof=1)}')
# 标准差
print(f'sample standard deviation = {np.std(data,ddof=1)}')
variance = 0.6666666666666666
standard deviation = 0.816496580927726
sample variance = 1.0
sample standard deviation = 1.0

[第16课] 统计:诸方差公式

本节课,可汗老师对原始方差公式进行推导,得出如下更简洁的公式。

在这里插入图片描述

主要参考资料:

主要参考资料:
视频:《可汗学院统计学》
文章:csdn shangboerds 学习笔记
Jent’s Blog 学习笔记(后来发现的,写得很好,推荐)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/29680.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

余承东回应高通对华为恢复 5G 芯片供应;ChatGPT 发布重要更新;微软推出免费 AI 入门课|极客头条...

「极客头条」—— 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧。 整理 | 梦依丹 出品 | CSDN(ID:CSDNnews) 一分钟速览新闻点&#…

23.4.25 Go学习日记

1. Go的命名规范(生成自ChatGPT) 1.1 包名 包名应该小写并尽可能用单个简短的词组,不要使用下划线或混合大小写。 1.2 文件名 Go 语言的文件名通常为小写字母,可以包含下划线 (_) 或点 (.),但不建议,并确…

微软亚研院:Language Is Not All You Need

源 | 量子位 还记得这张把谷歌AI搞得团团转的经典梗图吗? 现在,微软亚研院的新AI可算是把它研究明白了。 拿着这张图问它图里有啥,它会回答:我看着像鸭子。 但如果你试图跟它battle,它就会改口:看上去更像兔…

2023需要重点关注的四大AI方向

2023需要重点关注的四大AI方向 过去10年,人工智能从实验室走向各行各业,成为一种普遍技术应用于众多领域。根据IDC的数据,2022年全球AI市场规模达到4328亿美元,增长近20%。而Precedence Research预计,到2030年&#xf…

全球首个完全开源的指令跟随大模型;T5到GPT-4最全盘点

1. Dolly 2.0:世界上第一个完全开源的指令跟随LLM 两周前,Databricks发布了类ChatGPT的大型语言模型 (LLM)Dolly,其训练成本不到 30 美元。今天,他们发布了 Dolly 2.0,这是业内第一个开源的指令跟随LLM,并根…

chatgpt赋能python:Python怎么绕过登录爬取数据

Python怎么绕过登录爬取数据 在进行网站爬取时,经常会发现需要登录才能访问所需要的数据,这给我们的爬虫程序带来了一定的难度。本文就介绍一些Python绕过登录的方法,让你获取到所需的数据。 1. Session维持登录状态 当我们登录一个网站时…

怎么洗稿容易过稿-在线洗稿软件

自媒体洗稿软件 即使您是一位优秀的自媒体写作人员,也难免遇到让人头疼的撰写问题,例如无法处理大量原始文本、需要手动删除冗余信息、缺少时间针对每篇文章进行深入修改等问题。但是,现在有了我们的一款自媒体洗稿软件,您再也不需…

洗稿用什么软件-洗稿软件免费

洗稿文章的主要优势 洗稿文章的主要优势在于提高文章的质量和效率。以下是洗稿文章的几个主要优势: 优化结构和语言 洗稿可以删除冗余、无用和重复的内容,同时对文章的结构和语言进行优化,提高文章的可读性和吸引力。这可以使文章更加专业…

洗稿伪原创工具-洗稿生成器

chatgpt快速洗稿一篇文章 做自媒体创作的人都知道,文案创作是一件十分耗时间和精力的事情,而且要做好一篇文章,还需要考虑排版、语法和语气等问题。为了让自媒体写作更简单、更快速,我们推出了一款名为ChatGPT的快速洗稿软件&…

chatgpt赋能python:PythonReadline遍历:如何准确高效地读取大文件

Python Readline遍历: 如何准确高效地读取大文件 简介 在Python编程中,读取大型文本和数据文件是一项常见的任务。通常,Python在读取文件时,会一次性将整个文件读入内存中,这在读取小型文件时是非常有效的,但当文件较…

chatgpt赋能python:Python文件调用指南

Python文件调用指南 在Python编程中,经常需要使用文件进行数据读取和写入,所以掌握文件读写操作是非常重要的。本文将介绍如何在Python中调用文件,并给出一些使用技巧。 1. Python如何打开文件 可以使用Python内置的open()函数打开文件。o…

chatgpt赋能python:Python文件句柄全面解析

Python文件句柄全面解析 在 Python 中,文件被视为 I/O(输入/输出)操作的基础,文件句柄是与文件进行交互的重要方式之一。本文将从以下方面介绍和解析 Python 文件句柄: 什么是文件句柄?如何创建文件句柄&…

chatgpt赋能python:Python文件读取入门指南

Python文件读取入门指南 Python是一门强大的编程语言,能够处理各种各样的数据类型,其中文件也不例外。文件是计算机与外部世界进行信息交换的基础,使用Python读取和处理文件是我们在日常编程中必须掌握的技能。 在这篇文章中,我…

【Go】从文件读取json

在Go语言中,可以使用标准库中的 encoding/json 包来将 JSON 数据解析为 Go 中的结构体。 下面是一个简单的示例代码,演示了如何从 JSON 文件中读取数据并将其解析为结构体: package mainimport ("encoding/json""fmt"&q…

chatgpt赋能python:Python读取目录下文件和文件夹:一个便捷的文件管理解决方案

Python 读取目录下文件和文件夹:一个便捷的文件管理解决方案 在现代计算机领域中,文件和文件夹是我们经常需要处理的基本单元。在Python编程中,我们通常需要迭代目录中的文件和文件夹,以便对它们进行操作。幸运的是,P…

自然人如何开发票-以广西为例

个人没有开办企业,没有营业执照的情况能不能开发票呢。例如张三开了一家淘宝店,顾客在他这买了产品,想要张三给他开发发票,如果张三开不了发票,那人家就不要了。那这张三亏大了啊。于是想问,个人能不能开发…

医药交易平台如何保证税务合规?

伴随着我国社会经济的快速发展,居民对自身健康的关注程度与医疗保健意识在不断提高,再加上社会保障制度、公共卫生体系等的不断完善,以及在互联网的助力下,为医药经济的发展提供了良好的市场和机遇。特别是我国人口数量持续增长且…

内蒙古自治区律师事务所排名情况

内蒙古经济长期稳定增长,为内蒙古律师事务所的崛起带来了突破性历史机遇。随着时代的发展,行业发展规模已趋于稳定,律师业的竞争亦趋于成熟,截止2022年3月14日,根据官方公布数据显示内蒙古自治区共有777家律师事务所&a…

高企税务核查内容有哪些?

企业在通过高新技术企业认定后并不是就万事大吉了,在享受各项优惠政策及补贴时,还需注意应对税务部门的核查!高新技术企业该如何应对税务核查,需要准备哪些材料,一般核查哪些内容?今天这篇文章为总结了高新技术企业税务核查要点!…

拥抱AI,迎接未来

AI 从未离我们这么近。chatGPT 横空出世,5天达到1百万用户,两个月达到1亿用户。相比之下,Instagram 用了2年半的时间才到1亿用户。 拥抱AI,迎接未来 很多孩子开始谈论AI。为了带领孩子们迎接新趋势,我们开始更新Python…