Statistics with Python知识总结:库、统计图

前言

统计学作为一门重要的数据分析领域,为我们理解和解释数据提供了有力的工具。而Python是用来进行统计自动化和画图的重要工具。本文总结了与统计学相关的Python数据库和不同类型的统计图的关键知识点,帮助读者更好地理解工具,以及各知识点之间的逻辑,以便未来利用这些工具进行数据分析和可视化。

目录

    • 前言
    • Pandas DataFrame 的数据结构
    • Script
    • MatPlotLib(画图)
    • Seaborn
      • 散点图sns.scatterplot
  • 各类型统计图
    • 变量类型:
    • Histogram直方图:
    • Bar charts 条形图:
    • Bar charts 和Histograms的区别:
    • Pie Chart 饼状图:
    • Scatter Plot:

Pandas DataFrame 的数据结构

1.读取

df = pd.read_csv('filename.csv')
  1. 创建
 # 从列表创建df = pd.DataFrame([['Alice', 25], ['Bob', 30], ['Charlie', 35]], columns=['Name', 'Age'])# 从字典创建data = {'Name': ['Alice', 'Bob', 'Charlie'], 'Age': [25, 30, 35]}df = pd.DataFrame(data)
  1. 删除missing case
da["BMXWT"].dropna().describe() 

da[“BMXWT”].dropna().describe() 生成摘要之前先删除missing cases

Script

  1. CDF - Cumulative Distribution Function(累积分布函数):
    • 定义: 对于一个随机变量 X,它的 CDF 是一个函数 F(x),定义为 P(X ≤ x),表示随机变量小于或等于 x 的概率。
    • 公式: F(x) = P(X ≤ x)
    • 性质: CDF 是单调非减的,总是在 [0, 1] 范围内,并且在 x 增加时不减小。
    • 应用: 对于二项分布 binombinom.cdf(k, n, p) k=想成功的次数;n=实验次数;p=成功概率。
stats.binom(10, 0.5)

二项分布,试验10次,每次成功概率0.5

print(stats.expon.cdf(3))

计算随机变量小于等于给定值的概率。在这里,参数是 3,表示计算累积分布函数为 3 时的概率。

  1. PDF - Probability Density Function(概率密度函数):
    • 定义: 对于连续型随机变量 X,PDF 是一个函数 f(x),表示在给定点 x 处的概率密度,即 X 在 x 处的概率密度。(曲线下面函数面积值)
    • 性质: PDF 的值并不直接对应概率,而是在给定范围内的概率密度。总体积分为 1
    • 公式:
  • ∫ − ∞ ∞ f ( x ) d x \int_{-\infty}^{\infty} f(x) \, dx f(x)dx
    • 应用:
print(stats.norm.pdf(1))

调用正态分布对象的pdf方法,该方法计算随机变量取值为给定值的概率密度。在这里,参数是 1,表示计算概率密度函数在值为 1 处的概率密度。

  1. PPF概率百分点函数Percent Point Function:
    在统计学中,PPF 是累积分布函数(CDF)的逆函数。对于给定的概率,PPF 返回相应的随机变量值。
    • 公式: F − 1 ( p ) = x F^{-1}(p) = x F1(p)=x
    • 应用:
print(stats.t(10).ppf(0.5))

计算自由度为 10 的 t 分布的累积分布函数(CDF=0.5时)的逆函数(返回随机变量值),即概率百分点函数(PPF).

MatPlotLib(画图)

plt.grid(True)
plt.plot(x, y, ":", lw=5, color="orange") #lw=线条宽度
plt.ylabel("Y", size=15)
plt.xlabel("X", size=15)
  1. 绘图接口:

    • pyplot 模块是 Matplotlib 的绘图接口,它提供了类似于 MATLAB 的绘图功能。通常使用 import matplotlib.pyplot as plt 的方式引入。
  2. 基本绘图:

    • 使用 plt.plot(x, y) 可以绘制线图,其中 xy 是数据点的坐标。
  3. 样式和颜色:

    • 可以通过参数设置线条样式、颜色、标记等。例如,plt.plot(x, y, linestyle='--', color='blue', marker='o')
  4. 图表类型:

    • Matplotlib 支持绘制多种类型的图表,包括散点图、柱状图、饼图等。
  5. 标签和标题:

    • 使用 plt.xlabel(), plt.ylabel(), plt.title() 可以设置坐标轴标签和图表标题。
  6. 图例:

    • 使用 plt.legend() 可以添加图例,说明每条线或每个数据集的含义。

Seaborn

散点图sns.scatterplot

sns.scatterplot(x='x', y='y', hue='group', data=df)
plt.show()

x=‘x’ 和 y=‘y’:分别指定 x 轴和 y 轴的数据。
hue=‘group’:通过 ‘group’ 列的取值来着色散点,即根据 ‘group’ 列的不同取值,点的颜色会有所区分。

各类型统计图

变量类型:

  • Categorical Ordinal: 有顺序的。The variable represents categories or groups (adult or not adult). Would imply an == ordered relationship== among categories (e.g., low, medium, high).

  • Nominal: There is no inherent order or ranking among the categories; they are simply different groups.

  • Quantitative Continuous: number within a range(取值范围内所有数都可以取)

  • Quantitative Discrete: Would represent numeric values that are distinct and separate.

Histogram直方图:

  • Description: Histograms are used to visualize the distribution of a continuous variable by dividing the data into bins and displaying the frequency of observations in each bin.
  • Types:
    • Single-Peak (Unimodal): One clear peak in the distribution.
    • Bimodal双峰:两个峰必须整体趋势一致才叫biomodal.
    • Skewed (Left or Right): left (negatively skewed,小的值多,平均数小于中位数) or right (positively skewed,大的值多,平均数大于中位).
    • Bell-Shaped: Symmetrical distribution resembling a bell curve, often observed in normal distributions.
  • Use: Assessing Spread and Dispersion etc.

Bar charts 条形图:

  • Description: represent categorical data with rectangular bars. The lengths of the bars are proportional to the values they represent.
  • Use: Useful for comparing the values of different categories. Bar charts are versatile and can be used for both nominal and ordinal categorical data.

Bar charts 和Histograms的区别:

区别

A histogram is the graphical representation of data where data is grouped into == continuous number ranges== and each range corresponds to a vertical bar.

Pie Chart 饼状图:

  • Description: Pie charts represent data in a circular graph where each category is shown as a wedge, and the size of each wedge corresponds to the proportion of that category in the whole.
  • Use: Useful for displaying the composition of a whole, highlighting the relative sizes of different categories.
    在这里插入图片描述
  1. Box Plot (Box-and-Whisker Plot):
    • Description: Box plots provide a visual summary of the distribution of a numerical variable through quartiles (25th, 50th, and 75th percentiles) and identify potential outliers.
    • Use: Useful for comparing the spread and central tendency of different groups or variables.

在这里插入图片描述

知识点:四分位距。

  • Five-Number Summary:

    • Explanation of the five-number summary: == minimum, first quartile (Q1, 25%在这个value以下), median(50%), third quartile (Q3,75%), and maximum. ==
    • Example using the adult male heights histogram with values for each parameter.
  • Interquartile Range (IQR) 四分位距:

    • Introduction of the Interquartile Range (IQR) as a measure of spread.
    • Calculation of IQR using Q3 minus Q1 in the adult male heights example.
  • Comparison of Measures:

    • Emphasis on the robustness of the median as an estimate of the center, less influenced by outliers.
    • Standard deviation as an average distance from the mean.
    • Preference for == IQR== over the == range== due to robustness against outliers.

· 注意异常: Remember that even though outliers are plotting individually in boxplots, they are still part of the data set. 会影响Mean值。

Scatter Plot:

  • Description: Scatter plots are used to display the relationship between two continuous variables. Each point on the plot represents an observation with values on both X and Y axes.
  • Use: They help determine whether there is a positive, negative, or no correlation between variables. (一段关系是不是线性的)
  • Judgement:
    • r=1: Perfect positive correlation. As one variable increases, the other variable increases proportionally.
    • r=−1: Perfect negative correlation. As one variable increases, the other variable decreases proportionally.
    • r=0: No linear correlation. The variables are not linearly related.

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/242756.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

RocketMQ学习总结

一、架构 1、NameServer:注册中心。Broker信息注册到NameServer;producer/consumer根据某个topic通过NameServer获取对应broker的路由信息 ; 2、Broker:负责存储、拉取、转发消息; 3、Producer:消息生产者…

浅谈情绪的分类合集

一、什么是情绪分类 情绪分类,是指区分或者对比一种情绪与另一种情绪的方法,目前在情绪研究(emotion research)与情感科学(affective science)是具有争议的问题。有两个讨论情绪分类的基本观点&#xff1a…

ARP相关

ARP报文格式: 目的以太网地址,48bit,发送ARP请求时,目的以太网地址为广播MAC地址,即0xFF.FF.FF.FF.FF.FF。 源以太网地址,48bit。 帧类型,对于ARP请求或者应答,该字段的值都为0x08…

Traceroute 详解

前言 如果您是网络管理员,系统管理员或任何系统操作团队的一员,那么您可能已经听说过名为TRACEROUTE的工具。默认情况下,它是大多数操作系统中都提供的非常方便的工具。 网络管理员和系统管理员在日常活动中最常使用此工具。它基本上是一个…

pandas操作excel

目录 一:创建excel 二:修改excel 三:查找excel 四:删除数据 五:合并excel数据 一:创建excel import pandas as pd # 创建DataFrame对象 data { Name: [Alice, Bob, Charlie], Age: [25, 30, 35], S…

Microsoft Visual C++ RunTime怎么下载?

64位下载链接 下载好程序后双击,勾选“我同意许可条款和条件”,然后点击“安装” 安装完成后点击“关闭”即可 感谢您的阅读与关注,服务器大本营助您成为更专业的服务器管理员!

32 登录页组件

效果演示 实现了一个登录页面的样式,包括一个容器、左侧和右侧部分。左侧部分是一个背景图片,右侧部分是一个表单,包括输入框、复选框、按钮和忘记密码链接。整个页面的背景色为白色,容器为一个圆角矩形,表单为一个半透…

华为机考入门python3--(0)模拟题2-vowel元音字母翻译

分类:字符串 知识点: 字符串转list,每个字符成为list中的一个元素 list(string) 字符串变大小写 str.upper(), str.lower() 题目来自【华为招聘模拟考试】 # If you need to import additional packages or classes, please import …

UE5 独立程序的网络TCP/UDP服务器与客户端基础流程

引擎源码版,复制\Engine\Source\Programs\路径下的BlankProgram空项目示例。 重命名BlankProgram,例如CustomTcpProgram,并修改项目名称。 修改.Build.cs内容 修改Target.cs内容 修改Private文件夹内.h.cpp文件名并修改.cpp内容 刷新引擎 …

C++入门学习(七)整型

整型就是整数类型的数据(-1,0,1等等) 数据类型占用空间取值范围short(短整型)2字节 (-2^15 ~ 2^15-1) 32768~32767 int(整型)4字节(-2^31 ~ 2^31-1)long(长整形) Windows为4字节, Linux为4字节(32位), 8字节(64位) (-2^31 ~ 2^31…

为什么需要放行回源IP

为什么需要放行回源IP 网站以“独享模式”成功接入WAF后,所有网站访问请求将先经过独享引擎配置的ELB然后流转到独享引擎实例进行监控,经独享引擎实例过滤后再返回到源站服务器,流量经独享引擎实例返回源站的过程称为回源。在服务器看来&…

16.5 参考文献——深度学习定位

16.5 一种高效鲁棒的多楼层室内环境指纹定位方法 同济大学 Zhao Y, Gong W, Li L, et al. An Efficient and Robust Fingerprint Based Localization Method for Multi Floor Indoor Environment[J]. IEEEa Internet of Things Journal, 2023. 2.相关工作 B.基于深度学习的…

ChatGPT时代对大数据应用的展望

前言: 2022年底,科技圈有个爆炸性新闻,ChatGPT的诞生,引发了世界范围内的震惊;人工智能在与人交流上有了划时代的技术突破,可以和人深入的理解交流,让许多公司和领域对这项技术有了更多遐想。对…

HarmonyOS之sqlite数据库的使用

从API Version 9开始,鸿蒙开发中sqlite使用新接口ohos.data.relationalStore 但是 relationalStore在 getRdbStore操作时,在预览模式运行或者远程模拟器运行都会报错,导致无法使用。查了一圈说只有在真机上可以正常使用,因此这里…

Docker进阶篇-安装MySQL主从复制

一、MySQL主服务器 1、新建主服务器容器实例3307 docker run -p 3307:3306 \--name mysql-master \--privilegedtrue \-v /mydata/mysql-master/log:/var/log/mysql \-v /mydata/mysql-master/data:/var/lib/mysql \-v /mydata/mysql-master/conf:/etc/mysql \-e MYSQL_ROOT_…

String在VS与Linux下的区别

目录 一、string的成员 1.VS 2.Linux 二、string的扩容机制 1. VS 2.Linux 一、string的成员 string是C标准库中的一个类模板,用于表示和操作字符串 string在 Windows 与 Linux 中的成员不是相同的 1.VS 4个成员:_str , _size , _capacity 和…

RHEL8_安装软件的方法和系统初始化

参考: 资料来自下面链接: 第1章 动手部署一台Linux操作系统 | 《Linux就该这么学》 (linuxprobe.com)https://www.linuxprobe.com/basic-learning-01.html 一、安装软件的方法 RPM、Yum、DNF 常用的RPM软件包命令 命令 作用 rpm -ivh filename.rpm安装…

proteus8.15安装教程

proteus8.15安装教程 1.管理员运行 2.一直NEXT到这一步,需要注意,一定要选这一个 3.选中后出现 4.一直下一步到更新 这边结束后准备激活: 1.安装激活插件,先关闭防火墙 2.下一步 3.最后,将数据库放在根目录下 …

【总结】Linux命令中文帮助手册

1. 为什么要总结Linux命令中文帮助手册 Linux 官方并不提供中文的 help、man 帮助手册。网络上已有的前人翻译过的中文手册版本比较老,且翻译存在误差。从记忆角度来看,Linux 很多命令都不一定记得住详细的用法,易遗忘,缺少经验总…

PIG框架学习3——Redisson 实现业务接口幂等

零、前言 ​ 业务接口幂等问题是在开发中遇到的,如果对业务接口代码不进行幂等控制,并且在前端没有对请求进行限制的情况下,可能会出现多次对接口调用,导致错误异常的发生。就上述情况,对PIGX自带的业务接口幂等实现进…