贝叶斯定理与条件独立假设:朴素贝叶斯分类方法深度解读

今天给大家分享的是朴素贝叶斯算法,这个算法在实际使用中不是很多,因为现在很多算法已经发展的很好,性能上也比朴素贝叶斯算法的好很多,因此在实际中我们其实看到在实际应用中朴素贝叶斯算法的使用已经比较少,即使出现,最终的效果也是不及其他算法的,但是作为简单、基础的算法之一,我们掌握该算法的原理还是非常有必要的,同时在实际论文研究中也经常会使用贝叶斯算法的改进版,所以大家可以多了解了解。

朴素贝叶斯算法是基于贝叶斯定理与特征条件独立假设的分类方法。基本的思路就是给定训练数据集,首先基于特征条件独立假设学习输入输出的联合概率分布;然后基于此模型,对给定的输入x,利用贝叶斯定理求出后验概率最大的输出y。在介绍朴素贝叶斯算法之前,我们先做一些基础知识的铺垫——贝叶斯定理,该定理汇总比较重要的两个数学公式就是先验概率分布和条件概率分布,先验概率分布公式如下:

条件概率分布如下:

大家可以从公式中可以看出,先验概率分布其实就是训练数据中的不同类别数据占总体数据的比例(在实际中,频率近似概率),条件概率分布就是指在确定数据是某个类别的条件下,样本集X为指定值的概率,条件概率分布中的参数是非常多的,不仅涉及类别,还涉及特征以及特征的不同取值,假设X^{j}表示第j个特征,该特征可能的取值有S_{j},j=1,2.....n,Y表示可取的类别,这样的类别有K个,那么参数个数为K\prod_{j=1}^{n}S_{j},因此在实际中是不可取的。从而产生了朴素贝叶斯算法中对条件概率分布做出的条件独立性假设,如果大家对独立性理解不了的话,请上网搜索答案,条件独立性假设如下:

大家可以将该公式和没有独立的公式进行对比,可以发现,独立之后的结果就是可特征进行了拆分,条件独立假设等于是说分类的特征在类确定的条件下都是条件独立的。这一假设使朴素贝叶斯算法变得简单,但是会损失一定的分类准确率。

根据训练数据,模型学习到了先验分布和条件独立概率分布,从而可以根据输入的X计算得出后验概率分布P(Y=c_{k}|X=x),该公式表示在知道特征X的情况下,类别为c_{k}的概率,因此我们将该结果最大的类输出即可。后验概率公式为:

再结合特征条件独立性假设,公式变换为:

综上,朴素贝叶斯分类器可以表示为:

该公式表示我们将数据特征X使用朴素贝叶斯算法公式计算了在不同类别上的后验概率,最终选择这些概率中最大的一个概率,将其对应的类别输出,即判定为特征X对应的类别,在该公式中由于分母都是相同的,分母为什么是相同的,大家可以去网上查看简化版的好理解,实际在计算不同类别的时候,大家分母上的计算都是使用了所有的类别和所有的特征进行计算,因此在分母结果都是一样,从而该公式可以简化为:

 大家可能会比较好奇,为什么这里需要使用后验概率最大化来选择类结果,后验概率最大化代表类什么实际含义以及这个选择是怎么来的?大家如果学习过其他算法其实都了解,每一种算法都会有一个目标函数,朴素贝叶斯算法也不例外,假设存在一个0-1损失函数,表达式为:

 期望风险函数为:

取条件期望得:

 

我们的目标就是追求期望损失最小话,从而可得 :

 我相信大家对这几个等式应该还是比较好理解,可能稍微有难度就是第二等式,为什么直接将损失函数转换为类别不等的条件概率,是因为在上一个式子损失函数中,只有类别不等的时候我们才会存在损失函数同时损失函数为1,因此,我们下面直接转换成在确定样本X的条件下,类别不等的概率,最终的结果就转换成我们前面说的后验概率最大化,从而我们后验概率最大化是为了追求我们期望损失最小化得出来的。

朴素贝叶斯算法的总结如下:

我先使用简单直观的理解给大家讲解一下朴素贝叶斯算法的流程,后续将会使用一个实际案例给大家展示,我们首先计算先验概率,即不同类别在总数据中所占比例,接着,计算条件独立概率分布,即在不同类别下,不同特征取某个特征值的概率,遍历所有类别、所有特征以及所有特征取值, 最后新的输入数据,计算其所有特征后验概率,将最大后验概率最大的类别作为该数据的类别。  

fbsrestecgoutput
101
011
000
010

以上是给出的训练数据,前两列代表特征,最后一列代表分类,我们将会给出测试集数据(1,1)作为案例用于算法测试,算法运行结果如下:

从计算数据可以看出,最终的结果判定为1类别。在这个实际计算过程中,大家看到了以上我们使用极大似然估计得出的概率可能为0,为了处理这种情况,于是对朴素贝叶斯算法进行了改进,得到了贝叶斯估计,条件概率的贝叶斯估计概率公式为:

 和朴素贝叶斯算法相比就是在分子分母上加上了一个正数\lambda>=0,确保了计算出的概率不会等于0,当\lambda==0时就是朴素贝叶斯使用的极大似然估计,当\lambda==1时就是拉普拉斯平滑,贝叶斯估计的先验分布为:

大家也可以根据贝叶斯定理的前验分布和条件概率分布求出某个数据特征的后验概率,从而可以得出数据的类别,大家可以指定\lambda==1,即拉普拉斯平滑系数计算一下上面的案例,这里我就不再计算结果了,以上就是贝叶斯算法相关全部内容,大家如果对其他内容感兴趣,关注公众号“明天科技屋”, 更多精彩内容为您推荐!!!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/267081.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

高级语言期末2008级A卷(计算机学院)

1.编bool型函数&#xff0c;判断二维空间中的某点是否优于另一点。优于关系定义为&#xff1a;在二维空间中&#xff0c;某点&#xff08;A1&#xff0c;A2&#xff09;优于&#xff08;B1&#xff0c;B2&#xff09;&#xff0c;当且仅当A1>B1,A2>B2 #include <stdi…

【C++进阶】哈希(万字详解)—— 学习篇(上)

&#x1f387;C学习历程&#xff1a;入门 博客主页&#xff1a;一起去看日落吗持续分享博主的C学习历程博主的能力有限&#xff0c;出现错误希望大家不吝赐教分享给大家一句我很喜欢的话&#xff1a; 也许你现在做的事情&#xff0c;暂时看不到成果&#xff0c;但不要忘记&…

Tomcat部署Web服务器及基础功能配置

前言 Tomcat作为一款网站服务器&#xff0c;目前市面上Java程序使用的比较多&#xff0c;作为运维工人&#xff0c;有必要了解一款如何去运行Java环境的网站服务。 目录 一、Java相关介绍 1. Java历史 2. Java跨平台服务 3. Java实现动态网页功能 3.1 servelt 3.2 jsp …

python统计分析——广义线性模型的评估

参考资料&#xff1a;用python动手学统计学 残差是表现数据与模型不契合的程度的重要指标。 1、导入库 # 导入库 # 用于数值计算的库 import numpy as np import pandas as pd import scipy as sp from scipy import stats # 导入绘图的库 import matplotlib.pyplot as plt i…

AcWing 466. 回文日期

先贴个题目&#xff1a; 以及原题链接&#xff1a;466. 回文日期 - AcWing题库https://www.acwing.com/problem/content/468/ 这题乍一看有点恶心&#xff0c;如果枚举日期还要判断合法性&#xff0c;然后每个日期再判断是不是回文&#xff0c;即麻烦&#xff0c;时间复杂度又高…

day07_分类管理EasyExcel品牌管理

文章目录 1 分类管理1.1 菜单添加1.2 表结构介绍1.3 页面制作1.4 列表查询1.4.1 需求分析1.4.2 后端接口CategoryCategoryControllerCategoryServiceCategoryMapperCategoryMapper.xml 1.4.3 前端对接category.jscategory.vue 2 EasyExcel2.1 数据导入导出意义2.2 EasyExcel简介…

本地maven库缓存导入私库

为了加速编译代码&#xff0c;想将本地maven缓存导入内网私库使用。 脚本网上搜的 #!/bin/bash # copy and run this script to the root of the repository directory containing files # this script attempts to exclude uploading itself explicitly so the script name …

物体检测-系列教程19:YOLOV5 源码解析9 (Focus模块、Model类构造函数)

&#x1f60e;&#x1f60e;&#x1f60e;物体检测-系列教程 总目录 有任何问题欢迎在下面留言 本篇文章的代码运行界面均在Pycharm中进行 本篇文章配套的代码资源已经上传 点我下载源码 13、Focus模块 13.1 基本流程 原始输入图像的格式为&#xff1a;tensor: float32[1,3,64…

Unity(第十八部)物理力学,碰撞,触发、关节和材质

1、重力 刚体组件 英文中文描述RigidBody刚体组件physics->rigidbody &#xff0c;刚体组件使一个物体有了质量&#xff0c;重力等。&#xff0c;use gravity 勾选后&#xff0c;物体才会受到重力&#xff0c;会自动下落&#xff0c;取消勾选就不会。&#xff0c;&#xf…

Unity中URP下实现水体(水面反射)

文章目录 前言一、原理1、法一&#xff1a;使用立方体纹理 CubeMap&#xff0c;作为反射纹理使用2、法二&#xff1a;使用反射探针生成环境反射图&#xff0c;所谓反射的采样纹理 二、实现水面反射1、定义和申明CubeMap2、反射向量需要什么3、计算 N ⃗ \vec{N} N 4、计算 V ⃗…

【力扣白嫖日记】550.游戏玩法分析IV

前言 练习sql语句&#xff0c;所有题目来自于力扣&#xff08;https://leetcode.cn/problemset/database/&#xff09;的免费数据库练习题。 今日题目&#xff1a; 550.游戏玩法分析IV 表&#xff1a;Activity 列名类型player_idintdevice_idintevent_datedategames_played…

C语言--修饰符(auto、extern、static)与变量(局部变量+全局变量)和函数的关系

其中extern功能和用法上&#xff0c;比较特殊。先了解extern修饰全局变量&#xff0c;我总结为以下几点 为了方便描述&#xff0c;我创建了一个工程&#xff0c;工程包含了两个源文件&#xff0c;main.c和database.c **1&#xff09;&#xff1a;database.c中使用extern时用来…

Facebook的元宇宙实践:数字化社交的新前景

近年来&#xff0c;元宇宙&#xff08;Metaverse&#xff09;这一概念备受瞩目&#xff0c;被认为是数字化社交的未来趋势之一。而在众多科技巨头中&#xff0c;Facebook&#xff08;现更名为Meta&#xff09;一直处于元宇宙发展的前沿。在本文中&#xff0c;我们将深入探讨Fac…

Cesium插件系列——3dtiles压平

本系列为自己基于cesium写的一套插件具体实现。 这里是根据Cesium提供的CustomShader来实现的。 在CustomShader的vertexShaderText里&#xff0c;需要定义vertexMain函数&#xff0c;例如下&#xff1a; struct VertexInput {Attributes attributes;FeatureIds featureIds;…

NX二次开发:ListingWindow窗口的应用

一、概述 在NX二次开发的学习中&#xff0c;浏览博客时发现看到[社恐猫]和[王牌飞行员_里海]这两篇博客中写道有关信息窗口内容的打印和将窗口内容保存为txt,个人人为在二次开发项目很有必要&#xff0c;因此做以下记录。 ListingWindow信息窗口发送信息四种位置类型 设置Listi…

C语言学生成绩信息管理系统【结构体+文本】

功能描述&#xff1a; 1、录入成绩 2、显示不及格学生信息 3、统计每档学生数量 4、总成绩统计 代码&#xff1a; #include<stdio.h>#define N 30//结构体&#xff1a;typedef struct STUDENT{char id[10];//学号char name[20];//姓名float score[3];//三门成绩,分别代…

用node或者vscode开启一个简单的本地server服务器,加载html网页

使用Live Server 想要加载本地html页面可以快速能让它在你本地浏览器中打开&#xff0c;可以有好多种方式&#xff0c;如果你有使用vscode&#xff0c;可以安装一个插件&#xff1a;Live Server&#xff0c;然后直接在vscode中直接右键就可以开启这个服务&#xff1a; 安装好之…

新一代湖仓集存储,多模型统一架构,高效挖掘数据价值

星环科技TDH一直致力于给用户带来高性能、高可靠的一站式大数据基础平台&#xff0c;满足对海量数据的存储和复杂业务的处理需求。 同时在易用性方面持续深耕&#xff0c;降低用户开发和运维成本&#xff0c;让数据处理平民化&#xff0c;助力用户以更便捷、高效的方式去挖掘数…

Springboot 项目读取yaml的配置文件信息给静态方法使用,以及通过配置 ResourceBundle 类读取config.properties

读取yaml 的配置文件 配置文件信息 iot_saas_tenement:user_id: 7........8d9bprivate_key: MII.......qQbj_url: http://4.....5:8088project_name: iot_s.......rojectdevice_name: te.....ice 创建一个类 ProxyProperties 读取配置文件信息&#xff0c;并对外提供get方法 …

PaddleOCR 高精度文字识别:丰富多样的前沿算法 | 开源日报 No.187

PaddlePaddle/PaddleOCR Stars: 34.1k License: Apache-2.0 PaddleOCR 是一个丰富、领先和实用的 OCR 工具库&#xff0c;旨在帮助开发者训练更好的模型并将其应用到实际场景中。该项目具有以下特点和优势&#xff1a; 支持多种 OCR 相关前沿算法提供产业级特色模型 PP-OCR、…