我谈正态分布——正态偏态

目录

  • pdf和cdf
    • 参数
  • 标准正态分布
  • 期望和方差
  • 分布形态
  • 正态和偏态
    • 正态
    • 偏态
      • 瑞利分布
        • 偏度 (Skewness)
        • 峰度 (Kurtosis)
    • 比较

正态分布的英文是Normal Distribution,normal是“正常”或“标准”的意思,中文翻译是正态,多完美的翻译,正态对应偏态,正态是指分布曲线左右对称,偏度为零。正态分布的峰度也为0。

话说现在的翻译真让人受不了,比如那个multi-head attention。head还有body是按身体的部位命名的,那可能是语言习惯,就像描述像素邻域,他们用north, south, southeast这样描述,但是我们用上、下,右下描述,如果中文用北、南、东南这样描述是不是很奇怪,语言习惯不一样。

不会翻译还不如不翻了,那些翻译为头的人到底有脑子吗?很烦那种不说人话的翻译。

言归正传

正态分布(Normal Distribution),也被称为高斯分布(Gaussian Distribution),是一种重要的连续型概率分布。它在自然和社会科学的许多领域中都有广泛的应用。

pdf和cdf

正态分布的概率密度函数可以表示为:
f ( x ) = 1 σ 2 π e − 1 2 ( x − μ σ ) 2 f(x) = \frac{1}{\sigma\sqrt{2\pi}} e^{-\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2} f(x)=σ2π 1e21(σxμ)2
其中, x x x是随机变量, μ \mu μ是均值, σ \sigma σ是标准差。记为 X ∼ N ( μ , σ 2 ) X\sim N(\mu, \sigma^2) XN(μ,σ2)

正态分布的图形是对称的,其形状像一个钟形曲线,均值(mean)、中位数(median)和众数(mode)都位于分布的中心点。大部分数据集中在平均值附近,随着离平均值距离的增加,数据出现的概率迅速减少。

在这里插入图片描述

正态分布 N ( μ , σ 2 ) N(\mu, \sigma^2) N(μ,σ2)的分布函数为

F ( x ) = 1 2 π σ ∫ − ∞ x e − ( t − μ ) 2 2 σ 2 d t F(x) = \frac{1}{\sqrt{2\pi}\sigma} \int_{-\infty}^{x} e^{-\frac{(t-\mu)^2}{2\sigma^2}} dt F(x)=2π σ1xe2σ2(tμ)2dt

它是一条光滑上升的 S 形曲线。

在这里插入图片描述

参数

正态分布中的两个参数——均值 μ μ μ和标准差 σ σ σ如何影响正态分布图形的形状和位置。

  1. 如果固定 σ σ σ,改变 μ μ μ的值,则曲线沿 x 轴平移,而不改变其形状。也就是说正态密度函数的位置由参数 μ μ μ所确定,因此称 μ μ μ位置参数

  2. 如果固定 μ μ μ,改变 σ σ σ的值,则分布的位置不变,但 σ σ σ愈小,曲线呈高且窄,数据更加集中于均值周围; σ σ σ愈大,曲线呈低且宽,数据较为分散。也就是说正态密度函数的尺度由参数 σ σ σ所确定,因此称 σ σ σ尺度参数

总结,均值 μ μ μ决定分布的位置,而标准差 σ σ σ则决定了分布的宽度和数据的集中程度。

在这里插入图片描述

标准正态分布

设定随机变量 X X X服从正态分布 N ( μ , σ 2 ) N(\mu, \sigma^2) N(μ,σ2),并将其标准化为 U = X − μ σ U = \frac{X - \mu}{\sigma} U=σXμ,使得 U U U服从标准正态分布 N ( 0 , 1 ) N(0, 1) N(0,1)

对于标准正态分布(均值为0,标准差为1),概率密度函数为:
p ( z ) = 1 2 π e − z 2 2 p(z) = \frac{1}{\sqrt{2\pi}} e^{-\frac{z^2}{2}} p(z)=2π 1e2z2
标准正态分布的累积分布函数:
Φ ( z ) = ∫ − ∞ z 1 2 π e − t 2 2 d t \Phi(z) = \int_{-\infty}^{z} \frac{1}{\sqrt{2\pi}} e^{-\frac{t^2}{2}} \, dt Φ(z)=z2π 1e2t2dt

期望和方差

好巧不巧,正态分布的两个参数正好是均值和标准差。正态分布就是那么完美。

假设 U U U服从标准正态分布 N ( 0 , 1 ) N(0, 1) N(0,1)

  1. 均值的计算

    • 计算 U U U的期望值 E ( U ) E(U) E(U)
      E ( U ) = 1 2 π ∫ − ∞ ∞ u e − u 2 2 d u E(U) = \frac{1}{\sqrt{2\pi}} \int_{-\infty}^{\infty} u e^{-\frac{u^2}{2}} du E(U)=2π 1ue2u2du
      由于被积函数是一个奇函数,其积分结果为零,即 E ( U ) = 0 E(U) = 0 E(U)=0
    • 因此,根据 X = μ + σ U X = \mu + \sigma U X=μ+σU,可以得出 X X X的期望值 E ( X ) E(X) E(X)
      E ( X ) = μ + σ × 0 = μ E(X) = \mu + \sigma \times 0 = \mu E(X)=μ+σ×0=μ
    • 结论:正态分布 N ( μ , σ 2 ) N(\mu, \sigma^2) N(μ,σ2)的均值为 μ \mu μ
  2. 方差的计算

    • 首先计算 U U U的方差 V a r ( U ) Var(U) Var(U)或者说是 U 2 U^2 U2的期望值 E ( U 2 ) E(U^2) E(U2)
      E ( U 2 ) = 1 2 π ∫ − ∞ ∞ u 2 e − u 2 2 d u E(U^2) = \frac{1}{\sqrt{2\pi}} \int_{-\infty}^{\infty} u^2 e^{-\frac{u^2}{2}} du E(U2)=2π 1u2e2u2du
      利用分部积分法,最终得到 E ( U 2 ) = 1 E(U^2) = 1 E(U2)=1
    • 根据 X = μ + σ U X = \mu + \sigma U X=μ+σU,可以得出 X X X的方差 V a r ( X ) Var(X) Var(X)
      V a r ( X ) = V a r ( μ + σ U ) = σ 2 V a r ( U ) = σ 2 × 1 = σ 2 Var(X) = Var(\mu + \sigma U) = \sigma^2 Var(U) = \sigma^2 \times 1 = \sigma^2 Var(X)=Var(μ+σU)=σ2Var(U)=σ2×1=σ2
    • 结论:正态分布 N ( μ , σ 2 ) N(\mu, \sigma^2) N(μ,σ2)的方差为 σ 2 \sigma^2 σ2

注意: E ( X ) = μ E(X) = \mu E(X)=μ V a r ( X ) = σ 2 Var(X) = \sigma^2 Var(X)=σ2,均值 μ \mu μ和方差 σ 2 \sigma^2 σ2是正态分布的参数,只是在正态分布中正好等于期望和方差,而 E ( X ) E(X) E(X) V a r ( X ) Var(X) Var(X)是统计量,注意分区概念。有些刊物真是离谱了。
例如,Rafael Gonzalez的《数字图像处理》,此外这个 a a a也真多余。
在这里插入图片描述
和这个
在这里插入图片描述

分布形态

对于一个连续随机变量 X X X,其概率密度函数 f ( x ) f(x) f(x)描述了 X X X在某个特定值 x x x处的概率密度。需要注意的是, f ( x ) f(x) f(x)不直接表示概率,而是表示概率的密度。

对于任意区间 [ a , b ] [a, b] [a,b],随机变量 X X X落在这个区间内的概率可以通过计算该区间上的曲线下面积来得到。数学上,这可以通过积分来表示:
P ( a ≤ X ≤ b ) = ∫ a b f ( x ) d x P(a \leq X \leq b) = \int_{a}^{b} f(x) \, dx P(aXb)=abf(x)dx
要计算 X X X落在某个区间 [ a , b ] [a, b] [a,b]内的概率,可以使用正态分布的累积分布函数(CDF):
P ( a ≤ X ≤ b ) = Φ ( b ) − Φ ( a ) P(a \leq X \leq b) = \Phi(b) - \Phi(a) P(aXb)=Φ(b)Φ(a)
其中, Φ ( x ) \Phi(x) Φ(x)是正态分布的累积分布函数。

假设要计算标准正态分布中 Z Z Z落在 [ − 1 , 1 ] [-1, 1] [1,1]区间内的概率。

  1. 计算 Φ ( 1 ) \Phi(1) Φ(1)
    Φ ( 1 ) = ∫ − ∞ 1 1 2 π e − t 2 2 d t ≈ 0.8413 \Phi(1) = \int_{-\infty}^{1} \frac{1}{\sqrt{2\pi}} e^{-\frac{t^2}{2}} \, dt \approx 0.8413 Φ(1)=12π 1e2t2dt0.8413

  2. 计算 Φ ( − 1 ) \Phi(-1) Φ(1)
    Φ ( − 1 ) = ∫ − ∞ − 1 1 2 π e − t 2 2 d t ≈ 0.1587 \Phi(-1) = \int_{-\infty}^{-1} \frac{1}{\sqrt{2\pi}} e^{-\frac{t^2}{2}} \, dt \approx 0.1587 Φ(1)=12π 1e2t2dt0.1587

  3. 计算概率
    P ( − 1 ≤ Z ≤ 1 ) = Φ ( 1 ) − Φ ( − 1 ) = 0.8413 − 0.1587 = 0.6826 P(-1 \leq Z \leq 1) = \Phi(1) - \Phi(-1) = 0.8413 - 0.1587 = 0.6826 P(1Z1)=Φ(1)Φ(1)=0.84130.1587=0.6826

因此,标准正态分布中 Z Z Z落在 [ − 1 , 1 ] [-1, 1] [1,1]区间内的概率约为0.6826,即68.26%。

3 σ 3\sigma 3σ原则

  • 1 σ 1σ 1σ区间:大约68.27%的数据点位于平均值 μ μ μ的一个标准差 σ σ σ的范围内,即在 ( μ − σ , μ + σ ) (μ - σ, μ + σ) (μσ,μ+σ)之间。
    P ( μ − σ < X < μ + σ ) ≈ 0.6827 P(μ - σ < X < μ + σ) ≈ 0.6827 P(μσ<X<μ+σ)0.6827
  • 2 σ 2σ 2σ区间:大约95.45%的数据点位于平均值 μ μ μ的两个标准差 2 σ 2σ 2σ的范围内,即在 ( μ − 2 σ , μ + 2 σ ) (μ - 2σ, μ + 2σ) (μ2σ,μ+2σ)之间。
    P ( μ − 2 σ < X < μ + 2 σ ) ≈ 0.9545 P(μ - 2σ < X < μ + 2σ) ≈ 0.9545 P(μ2σ<X<μ+2σ)0.9545
  • 3 σ 3σ 3σ区间:大约99.73%的数据点位于平均值 μ μ μ的三个标准差 3 σ 3σ 3σ的范围内,即在 ( μ − 3 σ , μ + 3 σ ) (μ - 3σ, μ + 3σ) (μ3σ,μ+3σ)之间。
    P ( μ − 3 σ < X < μ + 3 σ ) ≈ 0.9973 P(μ - 3σ < X < μ + 3σ) ≈ 0.9973 P(μ3σ<X<μ+3σ)0.9973

正态分布的3σ原则指出,正态分布随机变量取值落在三倍标准差之外的概率非常小,大约是0.27%(即100% - 99.73%)。

  • 落在 μ ± 3 σ μ±3σ μ±3σ之外的概率为 1 − 0.9973 = 0.0027 1 - 0.9973 = 0.0027 10.9973=0.0027或者说约为0.27%。

在实际应用中,由于这个概率非常小,通常认为这样的事件几乎不会发生。因此,在很多情况下,可以将区间 ( μ − 3 σ , μ + 3 σ ) (μ - 3σ, μ + 3σ) (μ3σ,μ+3σ)视为正态分布随机变量的实际可能取值区间。这意味着在这个区间之外的值可以被视为异常值或者极端值。

这种处理方式简化了数据分析和决策制定的过程,尤其是在质量控制、过程改进等实际问题中, 3 σ 3σ 3σ原则提供了一种有效的方法来识别和处理异常数据点。这也就是所谓的正态分布的 3 σ 3σ 3σ原则。

normcdf(1)-normcdf(-1)
normcdf(2)-normcdf(-2)
normcdf(3)-normcdf(-3)

在这里插入图片描述

正态和偏态

正态

正态分布的曲线是左右对称的,其形状像一个钟形曲线,均值(mean)、中位数(median)和众数(mode)都位于分布的中心点。

偏态

偏态分布是指数据分布不是对称的,而是偏向一侧。偏态可以是正偏(右偏)或负偏(左偏)。

  • 当分布曲线的尾巴向右延伸时,称为正偏态;在正偏态分布中,大多数数据值集中在左侧,而右侧有较长的拖尾。
  • 当分布曲线的尾巴向左延伸时,称为负偏态。而在负偏态分布中,大多数数据值集中在右侧,左侧有较长的拖尾。

瑞利分布

看瑞利分布,我喜欢这个分布,并不知道什么用,就是喜欢它的流线型。

对于参数为 σ \sigma σ的瑞利分布,其概率密度函数 (PDF) 可以表示为:
f ( x ; σ ) = x σ 2 e − x 2 / ( 2 σ 2 ) , x ≥ 0 f(x;\sigma) = \frac{x}{\sigma^2} e^{-x^2/(2\sigma^2)}, \quad x \geq 0 f(x;σ)=σ2xex2/(2σ2),x0

其中, σ > 0 \sigma > 0 σ>0是尺度参数。

  • 均值(期望):
    E ( X ) = σ π 2 E(X) = \sigma \sqrt{\frac{\pi}{2}} E(X)=σ2π

  • 方差:
    V a r ( X ) = ( 4 − π ) σ 2 2 Var(X) = \left( 4 - \pi \right) \frac{\sigma^2}{2} Var(X)=(4π)2σ2

瑞利分布的均值和方差如何随着形状参数 σ \sigma σ的变化而变化。具体来说,当 σ \sigma σ增大时,均值和方差都会相应地增加。

偏度 (Skewness)

瑞利分布的偏度是正的,表明分布是右偏的。具体来说,偏度 γ 1 \gamma_1 γ1可以通过以下公式计算:
γ 1 = 2 π ( 4 − π 2 ) − 3 / 2 ≈ 0.6311 \gamma_1 = \sqrt{\frac{2}{\pi}} \left( \frac{4 - \pi}{2} \right)^{-3/2} \approx 0.6311 γ1=π2 (24π)3/20.6311

峰度 (Kurtosis)

峰度描述了分布的尖峭程度,对于瑞利分布,其峰度 β 2 \beta_2 β2可以表示为:
β 2 = ( 4 − π 2 ) − 2 ⋅ ( 3 − 6 π 4 − π + π 2 2 ) ≈ 3.245 \beta_2 = \left( \frac{4 - \pi}{2} \right)^{-2} \cdot \left( 3 - \frac{6\pi}{4 - \pi} + \frac{\pi^2}{2} \right) \approx 3.245 β2=(24π)2(34π6π+2π2)3.245

这里,峰度是指四阶标准化矩,而超峰度(excess kurtosis)则是指峰度减去3,因此瑞利分布的超量峰度为:
Excess Kurtosis = β 2 − 3 ≈ 0.245 \text{Excess Kurtosis} = \beta_2 - 3 \approx 0.245 Excess Kurtosis=β230.245

正态分布的偏度为0,峰度为3(超峰度为0),而瑞利分布的偏度为正值,峰度略大于3,这反映了它的分布形态特点。

在这里插入图片描述

比较

  • 对称性:正态分布是对称的,而偏态分布是非对称的。
  • 中心位置:在正态分布中,均值、中位数和众数都是相同的;而在偏态分布中,这三个统计量通常不同,且它们之间的关系可以用来判断偏态的方向。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/464542.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

杨传辉:云+AI 时代的一体化数据库|OceanBase发布会实录

在 2024 OceanBase 年度发布会 上&#xff0c; OceanBase CTO 杨传辉进行了主题为《云和 AI 时代的一体化数据库战略思考》的演讲&#xff0c;本文为演讲实录&#xff0c;欢迎阅读。 视频观看可点击&#xff1a;https://www.oceanbase.com/video/9001825 各位 OceanBase 的客…

华为OD机试 - 无重复字符的元素长度乘积的最大值(Python/JS/C/C++ 2024 C卷 100分)

华为OD机试 2024E卷题库疯狂收录中&#xff0c;刷题点这里 专栏导读 本专栏收录于《华为OD机试真题&#xff08;Python/JS/C/C&#xff09;》。 刷的越多&#xff0c;抽中的概率越大&#xff0c;私信哪吒&#xff0c;备注华为OD&#xff0c;加入华为OD刷题交流群&#xff0c;…

【格式化查看JSON文件】coco的json文件内容都在一行如何按照json格式查看

文章目录 1.使用 Python 中的 json 库2. 使用浏览器3. notepad4. VSCode 如果COCO的JSON文件内容在一行显示&#xff0c;这通常意味着文件被压缩或者是在传输过程中出现了问题。 1.使用 Python 中的 json 库 想更好地查看 COCO 格式的 JSON 标签&#xff0c;可以将其格式化为更…

2025生物发酵展(济南)为生物制造产业注入新活力共谱行业新篇章

2025第十四届国际生物发酵展将于3月3-5日济南盛大举办&#xff01;产业链逐步完整&#xff0c;展会面积再创历史新高&#xff0c;展览面积较上届增涨至60000平方米&#xff0c;专业观众40000&#xff0c;品牌展商800&#xff0c;同期活动会议增加至50场&#xff0c;展会同期将举…

kafka里的consumer 是推还是拉?

大家好&#xff0c;我是锋哥。今天分享关于【kafka里的consumer 是推还是拉&#xff1f;】面试题&#xff1f;希望对大家有帮助&#xff1b; kafka里的consumer 是推还是拉&#xff1f; 1000道 互联网大厂Java工程师 精选面试题-Java资源分享网 在Kafka中&#xff0c;消费者&…

Visual Studio | 配置管理

文章目录 一、配置管理1、项目属性1.1、常规1.2、VC 目录1.3、C/C -> 常规1.4、C/C -> 预处理器1.5、C/C -> 预编译头1.6、连接器 -> 常规1.7、连接器 -> 输入 2、编辑2.1、显示空格或tab符 一、配置管理 1、项目属性 1.1、常规 字段功能目标平台版本用于生成…

Docker打包自己项目推到Docker hub仓库(windows10)

一、启用Hyper-V和容器特性 1.应用和功能 2.点击程序和功能 3.启用或关闭Windows功能 4.开启Hyper-V 和 容器特性 记得重启生效&#xff01;&#xff01;&#xff01; 二、安装WSL2&#xff1a;写文章-CSDN创作中心https://mp.csdn.net/mp_blog/creation/editor/143057041 三…

js.轮转数组和旋转链表

这是两个相似的题型&#xff0c;一个是数组&#xff0c;另一个是链表。 链接&#xff1a;189. 轮转数组 - 力扣&#xff08;LeetCode&#xff09; 题目&#xff1a; 给定一个整数数组 nums&#xff0c;将数组中的元素向右轮转 k 个位置&#xff0c;其中 k 是非负数。 示例 1:…

mysql left join group_concat 主表丢失数据

问题出现的场景&#xff1a; 有一个主表 a&#xff0c;一个子表 b a表有两条数据&#xff0c;a表第一条数据在b表中有一条子数据&#xff0c;a表第二条数据在b表中有两条子数据。 现在想要查询出来a表的所有数据和a表的子表b的id&#xff0c;b的id 使用GROUP_CONCAT拼接 有…

Spring 中循环依赖 三级缓存

在Spring框架中&#xff0c;循环依赖是一个常见的问题&#xff0c;它指的是两个或多个Bean之间互相依赖&#xff0c;形成一个闭环&#xff0c;导致无法准确地完成对象的创建和初始化。为了解决这个问题&#xff0c;Spring引入了三级缓存机制。以下是对Spring中循环依赖和三级缓…

新能源汽车与公共充电桩布局

近年来,全球范围内对新能源汽车产业的推动力度不断增强,中国新能源汽车市场也呈现蓬勃发展的势头,在政策与市场的共同推动下,新能源汽车销量持续增长。然而,据中国充电联盟数据显示,充电基础设施建设滞后于新能源汽车数量增长的现状导致充电桩供需不平衡,公共充电桩服务空白区域…

【深度学习基础】常用图像卷积核类型

&#x1f308; 个人主页&#xff1a;十二月的猫-CSDN博客 &#x1f525; 系列专栏&#xff1a; &#x1f3c0;深度学习_十二月的猫的博客-CSDN博客 &#x1f4aa;&#x1f3fb; 十二月的寒冬阻挡不了春天的脚步&#xff0c;十二点的黑夜遮蔽不住黎明的曙光 目录 1. 前言 2. 常…

一二三应用开发平台自定义查询设计与实现系列3——通用化重构

通用化重构 前面我们以一个实体为目标对象&#xff0c;完成了功能开发与调试。 在此基础上&#xff0c;我们对功能进行重构&#xff0c;使其成为平台的标准化、通用化的功能。 前端重构 首先&#xff0c;先把自定义组件挪到了平台公共组件目录下&#xff0c;如下&#xff1…

RabbitMQ交换机类型

RabbitMQ交换机类型 1、RabbitMQ工作模型2、RabbitMQ交换机类型2.1、Fanout Exchange&#xff08;扇形&#xff09;2.1.1、介绍2.1.2、示例2.1.2.1、生产者2.1.2.2、消费者2.1.2.3、测试 2.2、Direct Exchange&#xff08;直连&#xff09;2.2.1、介绍2.2.2、示例2.2.2.1、生产…

qt QMenuBar详解

1、概述 QMenuBar是Qt框架中用于创建菜单栏的类&#xff0c;它继承自QWidget。QMenuBar通常位于QMainWindow对象的标题栏下方&#xff0c;用于组织和管理多个QMenu&#xff08;菜单&#xff09;和QAction&#xff08;动作&#xff09;。菜单栏提供了一个水平排列的容器&#x…

数据转换 | Matlab基于SP符号递归图(Symbolic recurrence plots)一维数据转二维图像方法

目录 基本介绍程序设计参考资料获取方式 基本介绍 Matlab基于SP符号递归图&#xff08;Symbolic recurrence plots&#xff09;一维数据转二维图像方法 符号递归图(Symbolic recurrence plots)是一种一维时间序列转图像的技术&#xff0c;可用于平稳和非平稳数据集;对噪声具有…

特殊矩阵的压缩存储

一维数组的存储结构 ElemType arr[10]; 各数组元素大小相同&#xff0c;且物理上连续存放。 数组元素a[i]的存放地址 LOC i * sizeof(ElemType)。&#xff08;LOC为起始地址&#xff09; 二维数组的存储结构 ElemType b[2][4];二维数组也具有随机存取的特性&#xff08;需…

MySQL utf8mb3 和 utf8mb4引发的问题

问题描述 Cause: java.sql.SQLException: Incorrect string value: \xF4\x8F\xBB\xBF-b... for column sddd_aaa_ark at row 1 sddd_aaa_ark 存储中文字符时&#xff0c;出现上述问题 原因分析 sddd_aaa_ark在数据库中结构是 utf8字符的最大字节数是3 byte&#xff0c;但是某些…

RK3568开发板Openwrt文件系统构建

RK3568开发板Openwrt文件系统构建 iTOP-RK3568开发板使用教程更新&#xff0c;后续资料会不断更新&#xff0c;不断完善&#xff0c;帮助用户快速入门&#xff0c;大大提升研发速度。 本次更新内容为《iTOP-3568开发板文件系统构建手册》&#xff0c;对Openwrt文件系统的编译…

Linux之crontab使用

一&#xff0c;查看cron是否已经在运行 查看crontab的运行状态 sudo service cron statussystemctl status cron 开启crontab: sudo service cron startsudo service cron restart 二&#xff0c;编辑cron定时任务 crontab -e加入你自己的命令&#xff0c;定时跑脚本&a…