机器学习·概率论基础

概率论

概率基础

这部分太简单,直接略过

条件概率

独立性

独立事件A和B的交集如下

在这里插入图片描述

非独立事件

非独立事件A和B的交集如下

在这里插入图片描述

贝叶斯定理

先验 事件 后验

在概率论和统计学中,先验概率和后验概率是贝叶斯统计的核心概念
简单来说后验概率就是结合了先验概率的前提和新事件的信息

在这里插入图片描述

自然贝叶斯

自然贝叶斯就是在有多个先验的前提下,假设它们相互独立,利用公式算出来的近似概率

在这里插入图片描述

贝叶斯与机器学习

  • 条件概率生成像素
    在这里插入图片描述

  • 条件概率识别图像
    在这里插入图片描述

概率分布

随机变量

随机变量分为离散型随机变量和连续型随机变量

区别如下

在这里插入图片描述

两个分布函数

  • 概率质量函数

在这里插入图片描述

概率分布

  • 离散型概率分布和连续型概率分布

纵坐标都是概率密度函数,面积才是概率,且总面积为1

概率密度函数在一个范围[a,b]为定值

在这里插入图片描述

  • 正态分布

理解模板函数
μ和σ的几何意义
一旁的函数是面积

在这里插入图片描述

箱型图

箱线图也称箱须图、箱形图、盒图,用于反映数据的离散程度,倾斜程度
主要由Q1,Q2,Q3百分位数组成,
在这里插入图片描述

QQ图

定义

分位数-分位数图是通过比较两个概率分布的分位数对这两个概率分布进行比较的概率图方法
横坐标是理论正态概率分布的百分数,纵坐标是数据概率分布的百分数
在这里插入图片描述

具体定义如下
在这里插入图片描述

统计意义

  • 比较数据是否符合正态分布
  • 越接近直线越可能是正态分布

边缘分布

将高维度密度分布降低至低纬度密度分布

离散型随机变量

*唯一公式

在这里插入图片描述

体现在联合分布的散点图上
在这里插入图片描述

连续性随机变量

本质是散点图+概率密度绘制成三维图像上的一个横截面,公式与离散型完全一致

在这里插入图片描述

条件分布

两个随机变量的条件分布

公式:本质上是条件概率

  • 离散型随机变量
    在这里插入图片描述
    在这里插入图片描述
  • 连续型随机变量

在这里插入图片描述

几何意义:横截面只是上式的分母

在这里插入图片描述

协方差

公式

对于数据集来收,概率分布为恒定值;对于随机变量来说,公式要变成加权的形式
在这里插入图片描述
在这里插入图片描述

统计意义

协方差为正或负说明数据集之间有正相关或负相关的关系,接近0说明数据集几乎没有关系

协方差矩阵

对角线上都是变量的方差,其他都是两个变量之间的协方差

在这里插入图片描述

相关系数

就是把协方差标准化的结果

在这里插入图片描述




数理统计

总体和样本的统计属性

样本的方差

这种结果更接近总体真实的方差

在这里插入图片描述

大数定理

大数定律揭示了随着样本量 𝑛 的增加,样本均值将越来越接近总体的期望值

中心极限定理

中心极限定理(Central Limit Theorem,CLT)是概率论和统计学中的一个重要定理,它描述了在一定条件下,独立同分布随机变量的和(或均值)趋近于正态分布的性质。具体来说,中心极限定理表明,当样本量足够大时,任何分布的独立同分布随机变量的均值的分布都将接近于正态分布,不论这些变量的原始分布是什么。

直接应用

  • 利用样本的均值计算总体估计总体的均值,因为中心极限定理告诉我们当n->∞+,二者的均值是一致的
    也可以用来估计方差随着样本的变化趋势

在这里插入图片描述

  • 中心极限定理表明,当 n 足够大时,均值的标准化形式将收敛于标准正态分布
    可以用于假设检验等这些要求正态分布的情况

在这里插入图片描述

点估计-最大似然估计MLE

最大似然估计(Maximum Likelihood Estimation,MLE)是一种用于估计统计模型参数的方法。最大似然估计通过找到使得观测数据出现的概率最大的参数值,来估计模型参数。
说人话就是已知某个数据集,想要计算某个模型的参数,只需要令各个数据在这个模型(概率密度/分布函数)中的概率乘积(等价于出现可能性)最大,就可以通过求导找出零点解出参数值

伯努利估计

  • 随机变量只有两个取值
    取对数求极值
    最终大概率:实际出现值的平均值

在这里插入图片描述
在这里插入图片描述

高斯函数估计

基本同理:也是最大化点在正态分布曲线上的概率

在这里插入图片描述

线性回归

你的模型就是一条直线,现在讨论的时让数据集尽可能接近你的直线,利用垂直的高斯函数,最大化概率计算直线的参数

在这里插入图片描述

  • 假设都是用的标准高斯函数进行概率模拟
    等价于最小化这些平方误差

在这里插入图片描述

正则化

正则化(Regularization)是一种用于防止机器学习模型过拟合的技术。过拟合是指模型在训练数据上表现良好,但在新数据(测试集)上表现不佳,即模型过于复杂,以至于捕捉了训练数据中的噪音和细节,无法很好地推广到新的数据。正则化通过在损失函数中增加一个惩罚项,限制模型的复杂度,从而提高模型的泛化能力。

常见正则化方法:L2-正则化

多项式拟合中,多项式系数的平方之和组成惩罚项

在这里插入图片描述

正则项

L2-正则化误差乘以正则化参数

在这里插入图片描述

贝叶斯统计

贝叶斯公式:信念,先验和后验

贝叶斯统计将概率解释为对不确定事件的主观信念或信念程度。它通过更新这种信念来进行统计推断。

  • 贝叶斯公式的进一步解释
    在这里插入图片描述
  • 离散和连续分布的贝叶斯公式
    在这里插入图片描述

最大化后验概率 MAP

其实就是更新后的后验概率分布中取一个最大值,最大化你的信念

在这里插入图片描述

贝叶斯统计的特点

先验很大程度上影响着后验
没有任何信息的先验,均匀分布的PDF函数的最大后验就是MLE
如果有充分数据,MLE和MAP估计是一样的

在这里插入图片描述

三者的关系

模型的总损失=模型本身的损失·MLE估计的损失+正则化损失

模型损失

多项式模型的系数分布在正太分布曲线上之积最小化

在这里插入图片描述

条件概率:MLE估计

就是模型生成的点与目标函数的差在正态分布曲线上的概率最大值

在这里插入图片描述

正则化

在这里插入图片描述

置信区间

显著性水平α

样本落在置信区间外的概率

z-score

Z-score是一种标准化的数据度量仅仅适用于正态分布中
Z-score表示一个数据点距离其所在数据集均值的标准差倍数
Z 分数用于衡量一个观测值在其分布中的相对位置,能够帮助识别数据点的异常程度以及进行不同数据集之间的比较。

计算公式

在这里插入图片描述

  • Z分数与显著性水平的关系

z相关于显著性水平α的的值通过查表获得

在这里插入图片描述

在这里插入图片描述

置信区间的计算公式

怎么来的:将均值标准化后根据置信水平确定Z值,然后还原为随机变量X-bar即可
在标准差准确的情况下,均值的分布一定是正态分布,根据中心极限定理

在这里插入图片描述

  • 边际误差的计算
    在这里插入图片描述

t分布-当标准差未知的情况

当使用样本的标准差时,均值的分布不是一个正态分布,而是一个t分布
t分布有一个自由度=样本数N-1,自由度越大,均值分布越接近于正态分布

在这里插入图片描述

概率的置信区间计算

P-hat是抽样的概率,概率的置信区间与样本均值的置信区间计算公式一致,都是±边际误差

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/382367.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【SpingCloud】客户端与服务端负载均衡机制,微服务负载均衡NacosLoadBalancer, 拓展:OSI七层网络模型

客户端与服务端负载均衡机制 可能有第一次听说集群和负载均衡,所以呢,我们先来做一个介绍,然后再聊服务端与客户端的负载均衡区别。 集群与负载均衡 负载均衡是基于集群的,如果没有集群,则没有负载均衡这一个说法。 …

springcolud学习05Feign

Feign Feign是一个声明式的http客户端,我们知道,在不使用Feign之前,在微服务中,一个模块如果想要调用另一个模块中的某个功能,需要向其发起请求http请求,如果不使用Feign,我们就需要通过硬编码的形式去编写构建http请求 新建模型,建立一个和consumer一样的module,不…

Python 实现PDF和TIFF图像之间的相互转换

PDF是数据文档管理领域常用格式之一,主要用于存储和共享包含文本、图像、表格、链接等的复杂文档。而TIFF(Tagged Image File Format)常见于图像处理领域,主要用于高质量的图像文件存储。 在实际应用中,我们可能有时需…

leetcode算法题之接雨水

这是一道很经典的题目,问题如下: 题目地址 给定 n 个非负整数表示每个宽度为 1 的柱子的高度图,计算按此排列的柱子,下雨之后能接多少雨水。 解法1:动态规划 动态规划的核心就是将问题拆分成若干个子问题求解&#…

TCP与UDP网络编程

网络通信协议 java.net 包中提供了两种常见的网络协议的支持: UDP:用户数据报协议(User Datagram Protocol)TCP:传输控制协议(Transmission Control Protocol) TCP协议与UDP协议 TCP协议 TCP协议进行通信的两个应用进程:客户端、服务端 …

GD32相较于STM32的优劣势

优势 1.更高的主频 GD32单片机的主频可以达到108MHz,‌而STM32的最大主频为72MHz,‌这意味着GD32在代码执行速度上具有优势,‌适合需要快速处理数据的场景 2.更低的内核电压 GD32的内核电压为1.2V,‌而STM32的内核电压为1.8V。…

【保姆级介绍服务器硬件的基础知识】

🌈个人主页: 程序员不想敲代码啊 🏆CSDN优质创作者,CSDN实力新星,CSDN博客专家 👍点赞⭐评论⭐收藏 🤝希望本文对您有所裨益,如有不足之处,欢迎在评论区提出指正,让我们共同学习、交流进步! 🦭服务器硬件基础知识 1. 🦭前言2. 🦭中央处理器(CPU)3. 🦭…

LeYOLO, New Scalable and Efficient CNN Architecture for Object Detection

LeYOLO, New Scalable and Efficient CNN Architecture for Object Detection 论文链接:http://arxiv.org/abs/2406.14239 代码链接:https://github.com/LilianHollard/LeYOLO 一、介绍 本文关注基于FLOP的高效目标检测计算的神经网络架构设计选择&am…

STM32CUBEIDE FreeRTOS操作教程(一):LED闪灯

STM32CUBEIDE FreeRTOS操作教程(一):LED闪灯 STM32CUBEIDE(不是STM32CUBEMX)开发环境集成了STM32 HAL库进行FreeRTOS配置和开发的组件,不需要用户自己进行FreeRTOS的移植。这里介绍最简化的用户操作类应用教程。以STM32F401RCT6开…

利用PyTorch进行模型量化

利用PyTorch进行模型量化 目录 利用PyTorch进行模型量化 一、模型量化概述 1.为什么需要模型量化? 2.模型量化的挑战 二、使用PyTorch进行模型量化 1.PyTorch的量化优势 2.准备工作 3.选择要量化的模型 4.量化前的准备工作 三、PyTorch的量化工具包 1.介…

微软的Edge浏览器如何设置兼容模式

微软的Edge浏览器如何设置兼容模式? Microsoft Edge 在浏览部分网站的时候,会被标记为不兼容,会有此网站需要Internet Explorer的提示,虽然可以手动点击在 Microsoft Edge 中继续浏览,但是操作起来相对复杂&#xff0c…

【BUG】已解决:Downgrade the protobuf package to 3.20.x or lower.

Downgrade the protobuf package to 3.20.x or lower. 目录 Downgrade the protobuf package to 3.20.x or lower. 【常见模块错误】 【解决方案】 欢迎来到英杰社区https://bbs.csdn.net/topics/617804998 欢迎来到我的主页,我是博主英杰,211科班出身…

Stable Diffusion基本原理通俗讲解

Stable Diffusion是一种基于深度学习的图像生成技术,它属于生成对抗网络(GANs)的一种。简单来说,Stable Diffusion通过训练一个生成器(Generator)和一个判别器(Discriminator)&#…

Vue使用FullCalendar实现日历/周历/月历

Vue使用FullCalendar实现日历/周历/月历 需求背景:项目上遇到新需求,要求实现工单以日/周/月历形式展示。而且要求不同工单根据状态显示不同颜色,一个工单内部,需要以不同颜色显示三个阶段。 效果图 日历 周历 月历 安装插件…

【unity 新手教程 001/100】安装与窗口布局介绍

欢迎关注 、订阅专栏 【unity 新手教程】谢谢你的支持!💜💜 Unity下载与安装 👉点击跳转详细图文步骤:Unity Hub Unity 编辑器 窗口布局: Hierarchy: 层级窗口 | 默认 Sample Scene (main camera、direc…

75.WEB渗透测试-信息收集- WAF、框架组件识别(15)

免责声明:内容仅供学习参考,请合法利用知识,禁止进行违法犯罪活动! 内容参考于: 易锦网校会员专享课 上一个内容:74.WEB渗透测试-信息收集- WAF、框架组件识别(14) php常见的组件…

视频汇聚平台EasyCVR启动出现报错“cannot open shared object file”的原因排查与解决

安防视频监控EasyCVR安防监控视频系统采用先进的网络传输技术,支持高清视频的接入和传输,能够满足大规模、高并发的远程监控需求。EasyCVR平台支持多种视频流的外部分发,如RTMP、RTSP、HTTP-FLV、WebSocket-FLV、HLS、WebRTC、fmp4等&#xf…

xmind--如何快速将Excel表中多列数据,复制到XMind分成多级主题

每次要将表格中的数据分成多级时,只能复制粘贴吗 快来试试这个简易的方法吧 这个是原始的表格,分成了4级 步骤: 1、我们可以先按照这个层级设置下空列(后买你会用到这个空列) 二级不用加、三级前面加一列、四级前面加…

Chrome v8 pwn 前置

文章目录 参考用到啥再更新啥简介环境搭建depot_tools和ninjaturbolizer 调试turbolizer使用结构数组 ArrayArrayBufferDataViewWASMJSObject结构Hidden Class命名属性-快速属性Fast Properties命名属性-慢速属性Slow Properties 或 字典模式Dictionary Mode编号属性 (Elements…

集合的概念

目录 概述 1 集合定义 1.1 基本定义 1.2 元素和集合的关系表述 1.3 集合分类 1.4 集合描述 1.5 集合关系描述 2 集合的运算 2.1 集合关系的定义 2.2 集合的运算 概述 在高等数学中,集合是指由一些具有共同特征的对象组成的整体。这些对象可以是数字、字母…