【机器学习之---数学】统计学基础概念

every blog every motto: You can do more than you think.
https://blog.csdn.net/weixin_39190382?type=blog

0. 前言

统计学基础

1. 频率派

频率学派(传统学派)认为样本信息来自总体,通过对样本信息的研究可以合理地推断和估计总体信息,并且随着样本的增加,推断结果会更加准确。代表性人物是费希尔(R. A. Fisher, 1890-1962)。

f11f3a292df5e0fed562e79f5b56dea45fdf72fc

频率学派的核心思想是基于大样本理论,将概率看作频率的极限,以样本观测值的频率为基础进行推断。频率学派注重数据的重复抽样和统计量的性质,比如点估计、置信区间和假设检验等。它强调的是通过样本信息来推断总体参数,并将此过程视为客观的、可重复的。

2. 贝叶斯学派

贝叶斯学派源于英国学者贝叶斯(T. Bayes, 1702-1761)在1763年发表的著名论文《论有关机遇问题的求解》。贝叶斯学派认为任何一个未知量都可以看作是随机的,应该用一个概率分布去描述未知参数,而不是频率派认为的固定值。

image-20240312102456751

贝叶斯学派的核心思想是先验信息与后验信息相结合,通过贝叶斯公式将先验信息与样本数据进行结合,得到后验分布,并以此作为对未知参数的推断。贝叶斯学派强调主观先验信息的引入,因此不同人可能会有不同的先验分布,从而导致不同的推断结果。贝叶斯学派注重个体的主观判断和背景信息,更加灵活和主观。

image-20240312101440834

先验分布: 贝叶斯学派使用先验分布来描述对未知参数的主观先验知识。先验分布可以是任意形式的分布函数,它反映了我们在进行观测之前对参数的先验认识。例如,在研究某产品的平均寿命时,我们可以使用指数分布作为平均寿命的先验分布。

img

后验分布: 贝叶斯学派使用后验分布来描述在观测数据之后对未知参数的更新认识。后验分布是通过将先验分布与观测数据相结合,应用贝叶斯公式计算得到的。例如,在进行文本分类时,我们可以使用贝叶斯定理计算每个类别的后验概率,从而将文本归入最可能的类别中。

img

3. 案例

3.1 频率派

比如我们想了解一个公交站在下一个单位时间内候车的人数情况。

常识告诉我们候车的人数分布应该是符合泊松分布的:

image-20240312105531055

也就是说单位时间内有k个人候车的概率,我们可以通过带入这个公式直接计算出来。

但是,我们面对的问题就是我们虽然知道这个分布公式,但其中有个未知参数λc。

所以,我们需要做的就是在已知分布的情况下如何去估计分布中未知的参数λc。

参数估计的经典方法认为未知参数λc是一个固定的常数,只不过是我们并没有确切的知道这个值。但是我们可以通过抽样得到的数据信息对这个值进行估计。

为此费希尔把高斯的极大似然估计方法做了重新论述,使之用来对参数进行估计。

简要说一下这个方法的大概思路。

我们从车站观察了5次,x1、x2、x3、x4、x5,我们认为在仅有的实验条件下出现的结果应该就是最大概率出现的结果。

所以我们写出似然函数:

image-20240312105625984

然后求使得这个式子达到最大值的λc的值。

由于对数的单调性,通常会取对数再求极值。

具体计算省略掉,得到的值为:

image-20240312105659884

这便是费希尔的经典方法

3.2 贝叶斯派

贝叶斯学派的最基本观点就是:任何一个未知量都可以看作是随机的,应该用一个概率分布去描述未知参数,而不是频率派认为的固定值。

在进行参数估计之前,通过先验信息,我们常常可以得到一个关于未知参数的概率分布,即先验分布,或主观分布。

这在频率派看来是根本不允许的,说好的未知参数是一个固定值,只能通过大量的重复的实验频率来确定,怎么到这里成了一个不确定的值了呢?

一句话而言,频率派认为未知参数是客观的,贝叶斯派认为未知参数可以先从主观角度来考虑。

贝叶斯认为,λc 不应该是一个固定值,而应该是一个随机变量。

我们平时根据经验,可以对做出一个分布的估计。

在这个例子中,我们根据平时候车的经验,感觉λc的值有75%的可能是10,有25%的可能是8,基本上没有其他的可能性了。

用贝叶斯方法的描述就是,关于λc的先验分布为:

image-20240312105939223

如果我们现在去公交车站,观察了一次,X=7,也就是说我们获得了最新的数据信息。

最新的数据信息有助于我们更新对λc的认识,即更新关于λc的先验分布。

应用贝叶斯定理,得到:

image-20240312110105947

image-20240312110124212

image-20240312110134717

同理得,

image-20240312110204470

所以,通过我们获得的信息,我们更新了我们对于先验分布的认识,从而得到了后验分布。

从认知的角度而言,贝叶斯方法是一个动态的过程。

随着我们经验的积累、获取数据的积累,对未知参数的估计不断进行着调整。

所以,贝叶斯方法很快在自然语言处理方面展现出了较好的特性。

4. 小结

频率学派和贝叶斯学派在理论和实践中各有侧重,互为补充。

频率学派的优点是注重大样本下的一致性和渐进性质,在样本足够大的情况下可以得到较为准确的推断结果。它的方法论在经典统计推断中应用广泛,特别适用于重复试验或大规模数据的分析。

贝叶斯学派的优点是能够充分利用先验信息,并将其与样本数据结合,从而得到更准确的推断结果。它的方法论适用于小样本或无法进行重复试验的情境,以及需要考虑个体差异和主观判断的问题。

img

参考

  1. https://mp.weixin.qq.com/s?__biz=MjM5MDE3OTk2Ng==&mid=2657441571&idx=1&sn=8448415b9c3fa355e76918f88dcb9f7b&chksm=bdd940328aaec9249e769779007899e55bd7d2fb7fa4cb2c785896cabb61fd9d36a93a93c6be&scene=27
  2. https://blog.csdn.net/fmqdzh/article/details/120003189
  3. https://blog.csdn.net/zy_zhengyang/article/details/115529564
  4. https://baijiahao.baidu.com/s?id=1779292867410400878&wfr=spider&for=pc

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/287697.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

6、ChatGLM3-6B 部署实践

一、ChatGLM3-6B介绍与快速入门 ChatGLM3 是智谱AI和清华大学 KEG 实验室在2023年10月27日联合发布的新一代对话预训练模型。ChatGLM3-6B 是 ChatGLM3 系列中的开源模型,免费下载,免费的商业化使用。 该模型在保留了前两代模型对话流畅、部署门槛低等众多…

Python爬虫:爬虫基本概念、流程及https协议

本文目录: 一、爬虫的基本概念1.为什么要学习爬虫1.1 数据的来源1.2 爬取到的数据用途 2.什么是爬虫3. 爬虫的更多用途 二、爬虫的分类和爬虫的流程1.爬虫的分类2.爬虫的流程3.robots协议 三、爬虫http和https1.http和https的概念2.浏览器发送HTTP请求的过,2.1 http…

基于springboot+vue调用百度ai实现车牌号识别功能

百度车牌号识别官方文档 结果视频演示 后端代码 private String getCarNumber(String imagePath, int count) {// 请求urlString url "https://aip.baidubce.com/rest/2.0/ocr/v1/license_plate";try {byte[] imgData FileUtil.readFileByBytes(imagePath);Stri…

【Python进阶】探秘装饰器:揭开简洁与强大的神秘面纱

引言 在Python的世界里,有一种魔法般的高级特性——装饰器(Decorators),它就像一块块功能各异的积木,能够让我们的代码变得更加灵活、优雅且易于维护。今天,让我们一同走进装饰器的殿堂,探索其…

R语言随机抽取数据,并作两组数据间t检验,并保存抽取的数据,并绘制boxplot

前提:接着上述R脚本输出的seed结果来选择应该使用哪个seed比较合理,上个R脚本名字: “5utr_计算ABD中Ge1和Lt1的个数和均值以及按照TE个数小的进行随机100次抽样.R” 1.输入数据:“5utr-5d做ABD中有RG4和没有RG4的TE之间的T检验.c…

[深度学习]yolov8+pyqt5搭建精美界面GUI设计源码实现五

【简单介绍】 依托先进的目标检测算法YOLOv8与灵活的PyQt5界面开发框架,我们倾力打造出了一款集直观、易用与功能强大于一体的目标检测GUI界面软件。通过深度融合YOLOv8在目标识别领域的出色性能与PyQt5的精美界面设计,我们成功推出了一款高效且稳定的软…

苍穹外卖项目-01(开发流程,介绍,开发环境搭建,nginx反向代理,Swagger)

目录 一、软件开发整体介绍 1. 软件开发流程 1 第1阶段: 需求分析 2 第2阶段: 设计 3 第3阶段: 编码 4 第4阶段: 测试 5 第5阶段: 上线运维 2. 角色分工 3. 软件环境 1 开发环境(development) 2 测试环境(testing) 3 生产环境(production) 二、苍穹外卖项目介绍 …

软件接口安全设计规范及审计要点

1.token授权安全设计 2.https传输加密 3.接口调用安全设计 4.日志审计里监控 5.开发测试环境隔离,脱敏处理 6.数据库运维监控审计 项目管理全套资料获取:软件开发全套资料_数字中台建设指南-CSDN博客

微信商家转账到零钱:实用指南,涵盖开通、使用与常见问题

商家转账到零钱是什么? 商家转账到零钱功能整合了企业付款到零钱和批量转账到零钱,支持批量对外转账,操作便捷。如果你的应用场景是单付款,体验感和企业付款到零钱基本没差别。 商家转账到零钱的使用场景有哪些? 这…

雷达新研社丨宏电雷达流量计助力河源灌区流量监测,赋能灌区现代化建设

灌区工程是农田灌溉排水的骨干网,是保障粮食安全的生命线。为了助力粮食安全和推动广东“百县千镇万村高质量发展工程”,广东省河源市连平县实施了灌区现代化改造工程。 本项目涵盖对约188公里的农田灌排渠道的感知监测站点建设,宏电股份作为…

SCI一区 | Matlab实现WOA-TCN-BiGRU-Attention鲸鱼算法优化时间卷积双向门控循环单元融合注意力机制多变量时间序列预测

SCI一区 | Matlab实现WOA-TCN-BiGRU-Attention鲸鱼算法优化时间卷积双向门控循环单元融合注意力机制多变量时间序列预测 目录 SCI一区 | Matlab实现WOA-TCN-BiGRU-Attention鲸鱼算法优化时间卷积双向门控循环单元融合注意力机制多变量时间序列预测预测效果基本介绍模型描述程序…

Antd Pagination 解决点击重置按钮后分页器不刷新问题

问题描述: 原本: 问题: 解决方法: const [resetPageSize, setResetPageSize] useState(10); setResetPageSize(10) pageSize{resetPageSize} pageSizeChange //初始化const [resetPageSize, setResetPageSize] useState(10);//…

Python 全栈体系【四阶】(二十一)

第五章 深度学习 二、推荐系统 2. 协同过滤及实现 2.1 基于物品的协同过滤推荐技术(评分) 2.2 基于物品的协同过滤算法(Item_CF) 2.3 基于用户的协同过滤算法(user-based collaboratIve filtering) 2.4 基本原理 2.5 ICF 计算物品之间的相似度&#…

应用层协议 - HTTP

文章目录 目录 文章目录 前言 1 . 应用层概要 2. WWW 2.1 互联网的蓬勃发展 2.2 WWW基本概念 2.3 URI 3 . HTTP 3.1 工作过程 3.2 HTTP协议格式 3.3 HTTP请求 3.3.1 URL基本格式 3.3.2 认识方法 get方法 post方法 其他方法 3.3.2 认识请求报头 3.3.3 认识请…

JVM之堆

堆的核心概述 一个JVM实例只存在一个堆内存,堆也是内存管理的核心区域。 Java堆区在JVM启动的时候即被创建,其空间大小也就确定了。是JVM管理的最大一块内存空间。 堆内存的大小是可以调节的。 《JVM虚拟机规范》规定,堆可以处于物理上不连…

Spring Boot 整合分布式搜索引擎 Elastic Search 实现 自动补全功能

文章目录 ⛄引言一、分词器⛅拼音分词器⚡自定义分词器 二、自动补全查询三、自动补全⌚业务需求⏰实现酒店搜索自动补全 四、效果图⛵小结 ⛄引言 本文参考黑马 分布式Elastic search Elasticsearch是一款非常强大的开源搜索引擎,具备非常多强大功能,…

springboot swagger 接口文档分组展示

例如将 controller 分成四类,分别放到四个包下: xxx.xxx.xxx.controller.manage xxx.xxx.xxx.controller.client xxx.xxx.xxx.controller.authority xxx.xxx.xxx.controller.common SwaggerConfig.java: import io.swagger.annotations.Api…

机器学习笔记(2)—单变量线性回归

单变量线性回归 单变量线性回归(Linear Regression with One Variable)1.1 模型表示1.2 代价函数1.3 代价函数的直观理解1.4 梯度下降1.5 梯度下降的直观理解1.6 梯度下降的线性回归 单变量线性回归(Linear Regression with One Variable) ps:...今天很倒霉 一名小女孩悄悄地碎…

“人工智能+”国家战略会带来哪些机会?

一、“人工智能”战略背景 2024年的中国政府工作报告首次引入了“人工智能”的概念,这是国家层面对于人工智能技术和各行业深度融合的重要战略举措。这一概念的提出意味着我国将进一步深化人工智能技术的研发应用,并积极推动人工智能与经济社会各领域的…

使用npm仓库的优先级以及.npmrc配置文件的使用

使用npm仓库的优先级以及.npmrc配置文件的使用 概念如何设置 registry(包管理仓库)1. 设置项目配置文件2. 设置用户配置文件3. 设置全局配置文件4. .npmrc文件可以配置的常见选项 概念 npm(Node Package Manager)是一个Node.js的…