数据挖掘——朴素贝叶斯分类

数据挖掘——朴素贝叶斯分类

  • 朴素贝叶斯分类
    • 极大后验假设
    • 独立性假设
    • 贝叶斯分类器总结

朴素贝叶斯分类

什么是分类?

  • 找出描述和区分数据类或概念的模型,以便能够使用模型预测未知的对象的类标号

概念区分

  • 分类与回归
    • 分类是预测分类(离散、无序)标号
    • 回归建立连续值函数模型

分类与聚类

  • 分类是有监督学习,提供了训练元组的类标号
  • 聚类是无监督学习,不依赖有类标号的训练实例

极大后验假设

  • 极大后验假设定义:学习器在候选假设集合H中寻找给定数据D时可能性最大的假设h,h被称为极大后验假设(Maximumaposteriori:MAP)

  • 确定MAP的方法是用贝叶斯公式计算每个候选假设的后验概率,计算式如下:
    h M A P = max ⁡ h ∈ H P ( h ∣ D ) = max ⁡ h ∈ H P ( D ∣ h ) P ( h ) / P ( D ) = max ⁡ h ∈ H P ( D ∣ h ) P ( h ) h_{M A P}=\max _{h \in H} P(h \mid D) =\max _{h \in H} \mathrm{P}(D \mid h) \mathrm{P}(h) / P(D)=\max _{h \in H} \mathrm{P}(D \mid h) \mathbf{P}(\mathrm{h}) hMAP=hHmaxP(hD)=hHmaxP(Dh)P(h)/P(D)=hHmaxP(Dh)P(h)
    在这里插入图片描述
    在这里插入图片描述
    计算 P < a 1 , a 2 , … , a n > ∣ h ) P<a_1,a_2,…,a_n > | ℎ) P<a1,a2,,an>h) 时,当维度过高时,可用数据变得很稀疏,难以获得结果。

独立性假设

假设D的属性𝐚𝐢之间相互独立
在这里插入图片描述
优点

  • 获得估计的 P ( a i ∣ h ) P(a_i | h ) P(aih) P ( < a 1 , a 2 , … , a n > ∣ h ) P(<a_1,a_2,…,a_n > | h ) P(<a1,a2,,an>h)容易很多
  • 如果D的属性之间不满足相互独立,朴素贝叶斯分类的结果是贝叶斯分类的近似

例题:
链接:https://www.nowcoder.com/questionTerminal/f25c433b9b0d42659d2cf3b39a8367ae

假定某同学使用Naive Bayesian(NB)分类模型时,不小心将训练数据的两个维度搞重复了,那么关于NB的说法中正确的是:
A.这个被重复的特征在模型中的决定作用会被加强
B.模型效果相比无重复特征的情况下精确度会降低
C.如果所有特征都被重复一遍,得到的模型预测结果相对于不重复的情况下的模型预测结果一样。
D.当两列特征高度相关时,无法用两列特征相同时所得到的结论来分析问题
E.NB可以用来做最小二乘回归
F.以上说法都不正确

答案:BD
解析:总结就是,对于特征独立型的模型,当存在高度相关特征的时候,由于冗余特征并没有增加数据的信息,但是它却对模型分类的 置信度产生了影响,冗余特征产生的效果也会叠加在模型中,从而使得模型效果变差。
根据公式,假如特征重复,那么p(x1/y)就会双倍,对于小于1得数相乘后概率会变小,所以特征会变弱,因此这个重复的特征在模型中的决定作用会减弱。

贝叶斯分类器总结

本质上是同时考虑了先验概率和似然概率的重要性

特点

  • 属性可以离散、也可以连续
  • 数学基础坚实、分类效率稳定
  • 对缺失和噪声数据不太敏感
  • 属性如果不相关,分类效果很好

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/502396.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LabVIEW在反馈控制时如何解决带约束的控制问题

在LabVIEW中&#xff0c;解决带约束的反馈控制问题通常需要使用先进的控制算法或特定的方法来满足约束条件&#xff0c;同时保证控制系统的性能和稳定性。以下是解决这类问题的一些常用方法和步骤&#xff1a; ​ 1. 定义控制问题及约束条件 确定被控对象的动态特性&#xff08…

机器人对物体重定向操作的发展简述

物体重定向操作的发展简述 前言1、手内重定向和外部重定向2、重定向原语3、重定向状态转换网络4、连续任意姿态的重定向5、利用其他环境约束重定向总结Reference 前言 对于一些特殊的任务&#xff08;如装配和打包&#xff09;&#xff0c;对物体放置的位姿由明确的要求&#…

Mysql数据实时同步到Es上

同步方案 ① 同步双写 同步双写实一种数据同步策略&#xff0c;它指的是在主数据库(如mysql) 上进行数据修改操作&#xff0c;同时将这些修改同步写入到ES 中&#xff0c;这种策略旨在确保两个数据库之间的数据一致性&#xff0c;并且优化系统的读写性能。 目标 同步双写是…

力扣66 加一

class Solution:def plusOne(self, digits: List[int]) -> List[int]:# 从最低位开始加一for i in range(len(digits) - 1, -1, -1):if digits[i] < 9:digits[i] 1return digitsdigits[i] 0# 如果所有位都是9&#xff0c;需要增加一位&#xff0c;例如 999 -> 1000r…

代码段中使用数据、栈

代码段中使用数据 改进之后 代码段中使用栈 在数据段中专门空出一段&#xff0c;作为栈 将数据、代码、栈放入不同段中

OpenCV的TickMeter计时类

OpenCV的TickMeter计时类 1. TickMeter是一个计时的类1.1 计算耗时1.2 计算循环的平均耗时和FPS1.3 function 2. 案例 1. TickMeter是一个计时的类 https://docs.opencv.org/4.x/d9/d6f/classcv_1_1TickMeter.html#details 1.1 计算耗时 TickMeter tm;tm.start();// do some…

Fabric部署-docker安装

一&#xff1a;安装docker 1.先卸载旧docker apt-get remove docker docker-engine docker.io containerd runc PS&#xff1a;新开的虚拟机输入命令后是这样的。 2.更新软件包 在终端中执行以下命令来更新Ubuntu软件包列表和已安装软件的版本: sudo apt update sudo apt …

【CSS】 ---- CSS 实现图片背景清除的滑动效果三种方法

1. 实现效果 1.1 removebg 实现图片背景的去除 1.2 gitee 登录界面的项目协同效果 2. 实现分析 最常见的方法就是通过 JS 定位获取设置对应盒子的宽度&#xff1b;removebg 使用的方法是 clip-path: polygon 来设置图片的显示区域&#xff1b;gitee 使用的方法是 clip: rect …

开源模型迎来颠覆性突破:DeepSeek-V3与Qwen2.5如何重塑AI格局?

不用再纠结选择哪个AI模型了&#xff01;chatTools 一站式提供o1推理模型、GPT4o、Claude和Gemini等多种选择&#xff0c;快来体验吧&#xff01; 在全球人工智能模型快速发展的浪潮中&#xff0c;开源模型正逐渐成为一股不可忽视的力量。近日&#xff0c;DeepSeek-V3和Qwen 2.…

微信开发工具git提交到码云

超简单&#xff0c;适用新手快速实现新项目备份到码云。步骤如下&#xff1a; 1、先在码云创建一个仓库&#xff0c;不要初始化readme文件 2、点击微信开发工具版本管理&#xff0c;如果第一次&#xff0c;会提示初始化仓库&#xff0c;照做就行 3、配置一些git信息 输入你的码…

PHP7和PHP8的最佳实践

php 7 和 php 8 的最佳实践包括&#xff1a;使用类型提示以避免运行时错误&#xff1b;利用命名空间组织代码并避免命名冲突&#xff1b;采用命名参数、联合类型等新特性增强可读性&#xff1b;用错误处理优雅地处理异常&#xff1b;关注性能优化&#xff0c;如避免全局变量和选…

数据分享:空气质量数据--哈尔滨

说明&#xff1a;如需数据可以直接到文章最后关注获取。 1.数据背景 地理位置与气候条件&#xff1a;哈尔滨位于中国东北部&#xff0c;黑龙江省南部&#xff0c;松花江中游。由于其地理位置&#xff0c;冬季寒冷且漫长&#xff0c;夏季短促而温热。这种气候特点对空气质量…

端口镜像SPAN与RSPAN

端口镜像概述 端口镜像的作用主要在于一些难度较大的网络技术的学习中&#xff0c;我们通过抓包对报文的分析&#xff0c;可以更好地理解 还有的就是在网络排障的过程中&#xff0c;我们可以通过抓包分析数据报文的收发等状态&#xff0c;来判断在哪个设备节点上出现了问题 …

基于Web的足球青训俱乐部管理后台系统的设计与开发源码(springboot+mysql+vue)

风定落花生&#xff0c;歌声逐流水&#xff0c;大家好我是风歌&#xff0c;混迹在java圈的辛苦码农。今天要和大家聊的是一款基于springboot的基于Web的足球青训俱乐部管理后台系统。项目源码以及部署相关请联系风歌&#xff0c;文末附上联系信息 。 项目简介&#xff1a; 基…

IDEA 撤销 merge 操作(详解)

作为一个开发者&#xff0c;我们都知道Git是一个非常重要的版本控制工具&#xff0c;尤其是在协作开发的过程中。然而&#xff0c;在使用Git的过程中难免会踩一些坑&#xff0c;今天我来给大家分享一个我曾经遇到的问题&#xff1a;在使用IDEA中进行merge操作后如何撤销错误的合…

用matlab调用realterm一次性发送16进制数

realterm采用PutString接口进行发送&#xff0c;需要注意的是发送的16进制数前面要加入0x标志。只有这样&#xff0c;realterm才能将输入的字符串识别为16进制数的形式。 另外,PutString函数支持两个参数输入&#xff0c;第一个参数为字符串&#xff0c;第二个参数为发送形式&…

C++基础概念复习

前言 本篇文章作基础复习用&#xff0c;主要是在C学习中遇到的概念总结&#xff0c;后续会继续补充。如有不足&#xff0c;请前辈指出&#xff0c;万分感谢。 1、什么是封装&#xff0c;有何优点&#xff0c;在C中如何体现封装这一特性&#xff1f; 封装是面向对象编程&…

【C++】矩阵转置问题详解与优化

博客主页&#xff1a; [小ᶻ☡꙳ᵃⁱᵍᶜ꙳] 本文专栏: C 文章目录 &#x1f4af;前言&#x1f4af;题目解析&#x1f4af;第一种实现方式&#xff1a;我的初始做法实现思路优缺点分析 &#x1f4af;第二种实现方式&#xff1a;我的优化做法实现思路优缺点分析 &#x1f4a…

在线二维码生成器-GO在线工具-文本工具

一款高效、便捷的在线二维码生成工具&#xff0c;支持生成文本、链接、名片等多种类型的二维码。无需安装软件&#xff0c;快速在线生成高清二维码&#xff0c;适用于个人使用和商业推广。免费使用&#xff0c;让二维码生成变得更简单。 gotool

【微服务】2、网关

Spring Cloud微服务网关技术介绍 单体项目拆分微服务后的问题 服务地址问题&#xff1a;单体项目端口固定&#xff08;如黑马商城为8080&#xff09;&#xff0c;拆分微服务后端口各异&#xff08;如购物车808、商品8081、支付8086等&#xff09;且可能变化&#xff0c;前端难…