ML 系列: 第 24 节 — 离散概率分布(泊松分布)

目录

一、说明

二、固定时间间隔示例

三、固定间隔的示例

四、泊松分布的主要特征

五、示例

5.1 平均客户数的计算:

5.2 用于计算和绘制泊松分布的 Python 代码:


一、说明

        泊松概率分布是一种离散概率分布,它表示在固定的时间或空间间隔内发生给定数量的事件的概率,前提是这些事件以已知的恒定平均速率发生,并且与自上次事件以来的时间无关。此分布对于对罕见事件进行建模特别有用。

泊松分布以生活在 58 年(1781-1840 年)的西蒙·丹尼斯·泊松男爵的名字命名。泊松是一位法国数学家和物理学家,以其在各个领域的广泛贡献而闻名,包括统计学、复分析、偏微分方程、变分微积分、分析力学、电和磁学、热力学、弹性和流体力学。

: 固定的时间或空间间隔是指观察或测量事件的特定、不变的时间段或区域。以下是两者的示例:

二、固定时间间隔示例

  • Number of Emails Received per hour (每小时接收的电子邮件数量):假设您要对客户服务部门在一小时内收到的电子邮件数量进行建模。此处,固定时间间隔为 1 小时。如果该部门平均每小时收到 10 封电子邮件,则泊松分布可用于预测在任何给定小时内收到不同数量电子邮件的概率。

三、固定间隔的示例

  • 一公顷森林中的树木数量:假设您正在研究森林中特定树种的分布。您可能想知道在一公顷的土地上找到一定数量的这些树的概率。在这里,固定的空间间隔是 1 公顷。如果每公顷的平均树木数为 50,则泊松分布可以帮助对在任何给定公顷内找到不同数量的树木的可能性进行建模。

四、泊松分布的主要特征

  1. 参数:泊松分布由单个参数 λ (lambda) 定义,该参数表示指定区间内的平均事件数
  2. 概率质量函数:在给定区间内观察到 k 个事件的概率计算如下:

其中 k 是非负整数 (0, 1, 2, ...),e 是自然对数的底数(约为 2.71828)。

3. 均值和方差:在泊松分布中,均值和方差都等于 λ

五、示例

        假设我们有兴趣对早高峰时段每 10 分钟到达咖啡店的顾客数量进行建模。根据历史数据,我们观察到以下内容:

        在此示例中,我们观察到了在三个 10 分钟间隔内到达的客户数量。此数据为我们提供了对每个间隔的平均客户数的见解。

5.1 平均客户数的计算:

        为了找到每 10 分钟间隔的平均客户数 (λ),我们将每个间隔中观察到的客户数相加,然后除以间隔数:

  • 客户总数 = 3 + 7 + 4 = 14
  • 间隔数 = 3
  • 每个区间的平均客户数 = 14/3 ≈ 4.67

10:30 AM 到 10:40 AM 间隔的预测:

为了预测上午 10:30 到上午 10:40 间隔的客户数量,我们将使用每 10 分钟间隔的平均客户数量,我们计算得出的顾客数量约为 4.67

对于在上午 10:30 到 10:40 之间到达的每个可能数量的客户 k,我们将使用泊松分布公式:

这里:

  • k 是到达的客户数量 (0, 1, 2, ...)
  • λ 是每 10 分钟间隔的平均客户到达率(约为 4.67)
  • e 是自然对数的底数(约为 2.71828)。

5.2 用于计算和绘制泊松分布的 Python 代码:

import numpy as np
import matplotlib.pyplot as plt
import math# Define the rate parameter (lambda) for the Poisson distribution
lambda_ = 4.67# Define the range of possible number of customers (from 0 to 10)
x = np.arange(0, 11)# Calculate the probability mass function (PMF) for each number of customers
pmf = [math.exp(-lambda_) * (lambda_ ** k) / math.factorial(k) for k in x]# Plotting the Poisson distribution
plt.figure(figsize=(10, 6))
plt.bar(x, pmf, color='skyblue', edgecolor='black')
plt.title('Poisson Distribution: Number of Customers Arriving Between 10:30 AM and 10:40 AM')
plt.xlabel('Number of Customers')
plt.ylabel('Probability')
plt.xticks(x)
plt.grid(True, linestyle='--', alpha=0.7)
plt.show()

这是上面的代码输出:

        在 ML 系列的第 24 天,我们深入研究了泊松分布,而第 20 天到第 24 天则专门探索了各种著名的离散分布。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/470488.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

闯关leetcode——3174. Clear Digits

大纲 题目地址内容 解题代码地址 题目 地址 https://leetcode.com/problems/clear-digits/description/ 内容 You are given a string s. Your task is to remove all digits by doing this operation repeatedly: Delete the first digit and the closest non-digit cha…

机器情绪及抑郁症算法

🏡作者主页:点击! 🤖编程探索专栏:点击! ⏰️创作时间:2024年11月12日17点02分 点击开启你的论文编程之旅https://www.aspiringcode.com/content?id17230869054974 计算机来理解你的情绪&a…

【深圳大学】数据结构A+攻略(计软版)

1. 考试 1.1 形式 分为平时,笔试,机试三部分。其中: 平时占30%,包含平时OJ测验和课堂练习,注意这个可能会因老师的不同和课题组的新策略而改变。笔试占60%,是分值占比的主要部分。机试占10%。 1.2 题型…

Chrome使用IE内核

Chrome使用IE内核 1.下载扩展程序IE Tab 2.将下载好的IE Tab扩展程序拖拽到扩展程序界面,之后重启chrome浏览器即可

使用pytest+openpyxl做接口自动化遇到的问题

最近使用pytestopenpyxl做了个接口自动化的小项目,遇到了一些问题。 首先,使用pytest这个框架,主要是使用了pytest.fixture, pytest.mark.parametrize这两个fixture去做参数化,里面注入的数据是用openpyxl来实现的。 接口介绍&a…

IEC60870-5-104 协议源码架构详细分析

IEC60870-5-104 协议源码架构 前言一、资源三、目录层级一二、目录层级二config/lib60870_config.hdependencies/READMEexamplesCMakeLists.txtcs101_master_balancedcs104_client_asyncmulti_client_servertls_clienttls_server说明 make这些文件的作用是否需要导入这些文件&a…

TensorRT基础知识

github:https://github.com/NVIDIA/TensorRT 官网快速入门链接:Quick Start Guide :: NVIDIA Deep Learning TensorRT Documentation 引言: TensorRT 是 NVIDIA 推出的一个高性能深度学习推理库,专门用于优化和加速已经训练好的深度学习模型…

jenkins提交gitee后自动部署

jenkins中安装gitee插件 Gitee Plugin​​​​​​ 配置gitee WebHook 生成giteeHook密码 去gitee中配置webHook 输入jenkins中的url和生成的密码 当我们再提交后就可以自动部署 gitee官方配置

软件测试面试八股文(超详细整理)

请你说一说测试用例的边界 参考回答: 边界值分析法就是对输入或输出的边界值进行测试的一种黑盒测试方法。通常边界值分析法是作为对等价类划分法的补充,这种情况下,其测试用例来自等价类的边界。 常见的边界值 1)对16-bit 的整数而言 32…

【金融风控】特征评估与筛选详解

内容介绍 掌握单特征分析的衡量指标 知道 IV,PSI等指标含义 知道多特征筛选的常用方法 掌握Boruta,VIF,RFE,L1等特征筛选的使用方法 【理解】单特征分析 什么是好特征 从几个角度衡量:覆盖度,区分度,相关性,稳定…

链游系统定制化开发:引领游戏产业的新时代

在数字革命的浪潮中,链游(区块链游戏)作为一种新兴游戏形式,正重新定义游戏产业的发展方向。链游将区块链技术与传统游戏结合,使游戏体验更加公平透明,并赋予玩家真正的资产所有权。这一领域不仅为玩家带来…

2024 年 8 个最佳 API 设计工具图文介绍

8 个最佳 API 设计工具推荐,包括 Apifox、Postman、Swagger、Insomnia、Stoplight、Hoppscotch、RapidAPI和Paw。 详细介绍:2024 年 8 个最佳 API 设计工具推荐

知识库管理系统:企业数字化转型的加速器

在数字化转型的大潮中,知识库管理系统(KBMS)已成为企业提升效率和创新能力的关键工具。本文将探讨知识库管理系统的定义、企业建立知识库的必要性,以及如何快速搭建企业知识库。 知识库管理系统是什么? 知识库管理系统…

24/11/12 算法笔记<强化学习> Policy Gradient策略梯度

gradient的核心就是每次更新前要重新收集,每个阶段的actor是不一样的. 策略梯度算法的核心思想: 策略表示:首先,策略梯度方法需要一个策略,该策略能够根据当前的状态选择一个动作。这个策略通常由一个参数化的函数表示…

物理设备命名规则(Linux网络服务器 15)

Linux系统中的一切都是文件,硬件设备也不例外。既然都是文件,就必须有文件名称。系统内核中udev设备管理器会自动把硬件名称规范化起来,目的是让用户通过设备文件的名字可以大致了解设备属性以及分区信息。这对于陌生的设备来说特别方便。另外…

SciPy:Python 科学计算工具包的全面教程

SciPy:Python 科学计算工具包的全面教程 引言 在数据科学和科学计算的领域,Python 已经成为一种流行的编程语言。作为 Python 的核心库之一,SciPy 提供了高效的数值计算功能,是科学计算、工程和数学应用中不可或缺的工具。本文将…

SAP_MM_SD_PP_FICO_视频课程几乎免费送

朋友们,都已经是2024年了,SAP中国区都已经被合并到樱花国的亚太区了,SAP上海研发中心也陆续撤离中*,竟然还有朋友花上万RMB学习SAP,钱花了可以在挣,主要是那个视频课程一个模块下来就得上百个小时&#xff…

如何在Puppeteer中实现表单自动填写与提交:问卷调查

一、介绍 在现代市场研究中,问卷调查是一种重要的工具。企业通过在线问卷调查了解消费者对产品或服务的需求、偏好和满意度,从而为产品开发、市场营销和服务优化提供指导。然而,对于爬虫技术专家来说,批量自动化地填写和提交问卷…

深度学习——权重初始化、评估指标、梯度消失和梯度爆炸

文章目录 🌺深度学习面试八股汇总🌺权重初始化零初始化 (Zero Initialization)随机初始化 (Random Initialization)Xavier 初始化(Glorot 初始化)He 初始化正交初始化(Orthogonal Initialization)预训练模型…

实验一:自建Docker注册中心

基于容器安装运行Registry Docker Registry主要负责镜像仓库的管理 创建并启动一个运行Docker Registry: docker run -d -p 5000:5000 --restartalways --name myregistry -v /opt/data/registry:/var/lib/registry registry -v:将主机的本地/opt/data/registry目…