【机器学习】在泊松分布中,当λ值较大时,其近似正态分布的误差如何评估?

在泊松分布中,当参数 λ 较大时,其近似正态分布的有效性可以通过 中心极限定理 和误差分析来理解和评估。以下内容结合理论推导和实际案例展开说明:


1. 泊松分布的定义

泊松分布是用于建模单位时间或单位空间内随机事件发生次数的概率分布,其概率质量函数为:

P(X = k) = \frac{\lambda^k e^{-\lambda}}{k!}, \quad k = 0, 1, 2, \ldots

其中,λ > 0 表示事件的平均发生次数。

  • 均值:\mathbb{E}[X] = \lambda
  • 方差:\text{Var}(X) = \lambda

2. 正态分布的近似条件

根据 中心极限定理,当随机变量的期望和方差有限时,其大量独立和同分布的累加和趋于正态分布。

  • 在泊松分布中,λ 较大时,其形状接近正态分布。这是因为泊松分布的均值和方差均为 λ,当 λ 较大时,随机变量 X 的分布形状逐渐对称,且变宽,趋于正态分布。
  • 正态近似公式:

X \sim \text{Poisson}(\lambda) \quad \approx \quad \mathcal{N}(\mu=\lambda, \sigma^2=\lambda)


3. 误差评估

泊松分布与正态分布的差异可以用以下方式量化:

  1. 绝对误差: 通过比较泊松分布的概率质量函数和正态分布的概率密度函数,计算误差:

    \text{Error}(k) = \left| P(X=k) - \phi(k; \lambda, \sqrt{\lambda}) \right|

    其中,\phi(k; \lambda, \sqrt{\lambda}) 是正态分布的概率密度函数。

  2. 相对误差:

    \text{Relative Error}(k) = \frac{\text{Error}(k)}{P(X=k)}
  3. 累积误差: 衡量整体误差,可以计算泊松分布和正态分布在某区间上的累积分布函数(CDF)的差异:

    \sup_x \left| F_\text{Poisson}(x; \lambda) - F_\text{Normal}(x; \lambda, \sqrt{\lambda}) \right|
误差的变化规律
  • 当 λ 较小时,泊松分布呈现右偏(偏态较大),与正态分布的对称性差异较大。
  • 随着 λ 增大,泊松分布逐渐对称,误差显著降低。
  • 一般认为,当 λ > 30时,正态分布可以较好地近似泊松分布。

4. 实际案例

应用背景

在某工厂中,平均每小时产生的缺陷产品数量服从泊松分布,λ = 40。我们希望近似计算某小时缺陷产品数量在 35 到 45 之间的概率。

步骤
  1. 泊松分布计算: 使用泊松分布的公式直接计算:

    P(35 \leq X \leq 45) = \sum_{k=35}^{45} \frac{\lambda^k e^{-\lambda}}{k!}
  2. 正态分布近似X \sim \text{Poisson}(40) 近似为 \mathcal{N}(40, \sqrt{40}),并通过正态分布的累积分布函数计算:

    P(35 \leq X \leq 45) \approx \Phi\left(\frac{45 + 0.5 - 40}{\sqrt{40}}\right) - \Phi\left(\frac{35 - 0.5 - 40}{\sqrt{40}}\right)

    其中 0.5 是 连续性修正

  3. 误差分析: 对比两种方法的结果,观察正态近似的误差。

Python实现
import numpy as np
from scipy.stats import poisson, norm
import matplotlib.pyplot as plt# 参数
lambda_val = 40
k = np.arange(20, 61)  # 范围# 泊松分布
poisson_probs = poisson.pmf(k, lambda_val)# 正态近似
normal_probs = norm.pdf(k, loc=lambda_val, scale=np.sqrt(lambda_val))# 绘制比较
plt.figure(figsize=(10, 6))
plt.bar(k, poisson_probs, alpha=0.6, label="Poisson Distribution")
plt.plot(k, normal_probs, 'r--', label="Normal Approximation")
plt.title("Comparison of Poisson Distribution and Normal Approximation")
plt.xlabel("k")
plt.ylabel("Probability")
plt.legend()
plt.grid()
plt.show()


5. 总结

  • 中心极限定理提供了理论支持:泊松分布在 λ 较大时可近似为正态分布。
  • 实际应用中,正态分布近似简化了泊松分布的复杂计算,尤其适用于大样本或高事件率场景。
  • 误差评估非常重要,需根据应用背景评估近似是否足够精确。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/474984.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

快速搭建Android开发环境:Docker部署docker-android并实现远程连接

目录 前言 1. 虚拟化环境检查 2. Android 模拟器部署 3. Ubuntu安装Cpolar 4. 配置公网地址 5. 远程访问 小结 6. 固定Cpolar公网地址 7. 固定地址访问 作者简介: 懒大王敲代码,计算机专业应届生 今天给大家聊聊快速搭建Android开发环境&#x…

使用 SMB 协议从win10电脑访问同网段ubuntu电脑文件

​​​​​​1.在 Ubuntu 上设置共享文件夹 在终端中运行以下命令安装 Samba: sudo apt update sudo apt install samba 编辑 Samba 配置文件: sudo nano /etc/samba/smb.conf 在文件末尾添加以下内容(假设要共享 用户dy下的Downloads目录&…

Android WMS概览

WMS(WindowManagerService)是 Android 系统的核心服务,负责管理应用和系统的窗口,包括窗口的创建、销毁、布局、层级管理、输入事件分发以及动画显示等。它通过协调 InputManager 和 SurfaceFlinger 实现触摸事件处理和窗口渲染&a…

25.<Spring博客系统②(实现JWT令牌登录接口+强制登录+获取用户信息+获取作者信息)>

PS:带删除线的方法 可以使用但是不建议使用(方法提供方说的) 加上Deprecated注解。就代表这个方法可以使用,但是不建议使用。也就会带删除线了 前言 对于用户登录。 我们之前的做法都是 1.用户登录,后端验证用户名和密…

《Python编程实训快速上手》第七天--文件与文件路径

该章节将使用Python在硬盘上创建、读取和保存文件 一、文件与文件路径 1、Windows中使用\以及macOS和Linux中使用/ 使用pathlib模块中的Path()函数进行文件名和目录的拼接,返回文件路径字符串 from pathlib import Path print(Path("spam","bacon",&qu…

Oracle RAC仲裁交换机的小科普

一、Oracle RAC仲裁交换机的主要功能 Oracle RAC仲裁交换机是用于Oracle Real Application Clusters(真实应用集群,简称RAC)环境中的一种网络设备。它主要用于在集群节点之间进行通信,以确保集群的高可用性和故障切换能力。以下是…

Leetcode 快乐数

算法思想: 这段代码的目的是判断一个正整数是否是 快乐数(Happy Number)。根据题目要求,快乐数定义如下: 对于一个正整数,不断将它每个位上的数字替换为这些数字平方和。重复这个过程,如果最终…

使用 Vue 和 Create-Vue 构建工程化前端项目

目录 前言1. 工程化的意义与 Vue 的生态支持2. 搭建 Vue 工程化项目2.1 环境准备2.2 使用 create-vue 创建项目2.2.1 初始化项目2.2.2 安装依赖2.2.3 本地运行 3. Vue 项目的目录结构解析4. Vue 开发流程详解4.1 项目入口与根组件4.1.1 main.js 的作用4.1.2 App.vue 的结构 4.2…

【MySQL实战45讲笔记】基础篇——redo log 和 binlog

系列文章 基础篇——MySQL 的基础架构 目录 系列文章1. 重要的日志模块:redo log 和 binlog1.1 redo log1.2 binlog1.3 执行器和 InnoDB 引擎内部如何执行更新语句 1. 重要的日志模块:redo log 和 binlog 前面系统的了解了一个查询语句的执行流程&…

C++ lambda(匿名函数)捕获自己

今天写算法题时无意间遇到一种情况,我的深度优先遍历函数要在函数内调用自身,如果是普通函数没什么问题,但如果是 匿名函数 的话会有一些问题,甚至问ai,ai也没打上来,上网搜了半天,才找到这个的解答,故作此文 以费契那波数列为例 // 普通函数式 int fun(int pos) {if (pos …

DAO模式

前言 DAO(Data Access Object)模式 是一种常用的设计模式,主要用于将数据访问逻辑与业务逻辑分离。它提供了一种抽象层,使得应用程序可以与不同的数据源(如数据库、文件系统等)进行交互,而无需…

mysql日志写满出现The table ‘xxxx_amazon_order’ is full

数仓发现写数据出现 SQL 错误 [1114] [HY000]: The table ‘xxxx_amazon_order’ is full 1.第一时间查看系统磁盘, 发现空间写满了 df -h因为mysql是使用docker部署的, Docker 的默认存储位置在 /var/lib/docker /var 目录默认是在根分区 (/dev/mapper/centos-root) 下的 …

【读书笔记-《网络是怎样连接的》- 7】Chapter3_2 路由器

本篇继续介绍路由器及其转发过程。 1 路由器内部结构 路由器内部结构图如图所示。 即主要包含左侧的包转发模块和右侧的端口模块。转发模块负责查找包的发送目的地,端口模块完成包的发送。通过安装不同的硬件,转发模块不仅可以支持以太网,也…

P5099 [USACO04OPEN] Cave Cows 4

P5099 [USACO04OPEN] Cave Cows 4https://www.luogu.com.cn/problem/P5099 思路: 这里的垫蹄石之间很明显是有后效性的 所以不能用dp来做 考虑宽搜 我们每次都枚举和这个垫蹄石之间x方向和z方向的距离均不超过2的垫脚石 因为都很大 我们可以使用 代码&#xf…

高阶C语言之六:程序环境和预处理

本文介绍程序的环境,在Linux下对编译链接理解,较为简短,着重在于编译的步骤。 C的环境 在ANSI C(标准C语言)的任何一种实现中,存在两个不同的环境。 翻译环境:在这个环境中,源代码…

【Python数据可视化分析实战】数据爬取—京东手机品牌信息数据爬取和数据分析与可视化

大数据分析设计方案 1.数据集来源:https://search.jd.com 2.实现思路: (1)数据爬取 首先,我们需要从京东平台上采集手机品牌的相关数据。可以通过网络爬虫或API接口等方式获取数据。为了保证数据的完整性和准确性&…

【MySQL-4】表的基本查询

目录 1. 整体学习的思维导图 2. 表的创建 2.1 Create(创建) 2.1.1 插入规则 2.1.2 更新插入 2.2 Retrieve(读取) 2.2.1 创建一个实例表 2.3 select使用 2.3.1 全表查询 2.3.2 指定序列查询 2.3.3 查询表达式 2.3.3.1 为查询表达式改名字 2.3.4 查询去重 2.…

无人机航测技术算法概述!

一、核心技术 传感器技术: GPS/GLONASS:无人机通过卫星定位系统实现高精度的飞行控制和数据采集。 高清相机:用于拍摄地面图像,通过后续图像处理生成三维模型。 激光雷达(LiDAR):通过激光扫…

uniapp 自定义加载组件,全屏加载,局部加载 (微信小程序)

效果图 全屏加载 页面加载使用 局部加载 列表加载里面使用 使用gif html <template><view><view class"" v-if"typeFullScreen"><view class"loading" v-if"show"><view class""><i…

【D3.js in Action 3 精译_040】4.4 D3 弧形图的绘制方法

当前内容所在位置&#xff1a; 第四章 直线、曲线与弧线的绘制 ✔️ 4.1 坐标轴的创建&#xff08;上篇&#xff09; 4.1.1 D3 中的边距约定&#xff08;中篇&#xff09;4.1.2 坐标轴的生成&#xff08;中篇&#xff09; 4.1.2.1 比例尺的声明&#xff08;中篇&#xff09;4.1…