机器学习3

六、朴素贝叶斯分类

 背景知识:第三大点的第4点:概率 基础定义_数学概率中事件的定义-CSDN博客

1、条件概率

        𝑃(𝐴|𝐵)=𝑃(𝐴∩𝐵)/𝑃(𝐵) :A事件在B事件发生的情况下发生的概率为 交集发生的概率除以B事件发生的概率。

2、全概率公式

        𝑃(𝐵)=𝑃(𝐵|𝐴)𝑃(𝐴)+𝑃(𝐵|𝐴′)𝑃(𝐴′):事件B的概率为B在A发生的情况下概率以及B在非A发生情况下的概率之和。𝑃(𝐴′)表示非A事件。

3、贝叶斯推论

        𝑃(𝐴|𝐵)=𝑃(𝐴) * 𝑃(B|A)/𝑃(𝐵):A事件在B事件发生情况下的概率为A事件概率乘以B事件在A事件发生情况下概率除以B事件发生的概率,也就是前提的互换。

        P(A)称为"先验概率"(Prior probability),即在B事件发生之前,我们对A事件概率的一个判断。

        P(A|B)称为"后验概率"(Posterior probability),即在B事件发生之后,我们对A事件概率的重新评估。

        P(B|A)/P(B)称为"可能性函数"(Likelyhood),这是一个调整因子,使得预估概率更接近真实概率。

        后验概率 = 先验概率x调整因子

4、朴素贝叶斯推论

        对条件概率分布做了条件独立的假设,再去使用 𝑃(𝐴|𝐵)=𝑃(𝐴) * 𝑃(B|A)/𝑃(𝐵) 。

5、拉普拉斯平滑系数

        某些事件或特征可能从未出现过,这会导致它们的概率被估计为零。所以进行了分子加上1,分母加上特征总数量

6、API

from navie_beyes import MultinomialNB

同样的使用 fit 训练,predict预测, score 获取准确率

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import MultinomialNBx,y = load_iris(return_X_y=True)
# 划分数据集
x_train,x_test, y_train,y_test = train_test_split(x,y,shuffle=True,train_size=0.85,stratify=y)
# 实例化预估器
model = MultinomialNB()
# fit 训练数据
model.fit(x_train,y_train)
# score 获得准确率
print(model.score(x_test,y_test))

七、决策树

1、信息熵

        通过本样本的类别在样本空间占比的方法进行计算

        例如:样本空间为8,该特征存在两个类别,第一个类别占据5,第二种占据3,那么该点的信息熵为 -(5/8log5/8 + 3/8log3/8)

        信息熵越小,决策价值越大。(信息熵大代表对数据划分性能差,故而无法决策)

2、信息增益 entropy

        在根节点判断情况下得到新的样本空间,这时候得到特征的信息熵减去根节点信息熵的绝对值,就是该特征的信息增益。

        信息增益越大,越有决策价值。

3、基尼指数 gini

        也就是二分类,一个节点包含的样本属于正类的概率是 (p),则属于负类的概率是 (1-p):

Gini(p) = 1 - p^2 - (1-p)^2 = 2p(1-p)

        基尼指数约大,数据越混乱,决策效果越差。

4、可视化决策树

        export_graphviz(算法名称, out_file = "路径/名称.dot",fearure_names=特征描述)

        将文件内容复制到网站(Webgraphviz )后生成。

5、API

from sklearn.tree import DecisionTreeClassifier

参数:criterion:gini-基尼指数;entropy-信息增益;log_loss-对数损失

            max-depth:整数,默认None

from sklearn.tree import DecisionTreeClassifier, export_graphviz
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_splitwine = load_wine()
x = wine.data
y = wine.target
x_train, x_test, y_train, y_test = train_test_split(x,y, test_size=0.2)
# 生成决策树对象
tree = DecisionTreeClassifier()
# 使用fit训练数据
tree.fit(x_train, y_train)
print(tree.score(x_test, y_test))# 生成可视化文件
export_graphviz(tree, out_file="../model/wine_tree.dot", feature_names=wine.feature_names)

八、随机森林

1、API

from sklearn.ensemlbe import RandomForestClassifier

参数与决策树一致

import pandas as pd
from sklearn.feature_extraction import DictVectorizer
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier# 1、获取数据
titanic = pd.read_csv("../../src/titanic/titanic.csv")
titanic.head()
# 筛选特征值和目标值
x = titanic[["pclass", "age", "sex"]]
y = titanic["survived"]# 2、数据处理
# 1)缺失值处理
x["age"].fillna(x["age"].mean(), inplace=True)
# 2) 转换成字典
x = x.to_dict(orient="records")
# 3)、数据集划分
x_train, x_test, y_train, y_test = train_test_split(x, y, random_state=22)
# 4)、字典特征抽取
transfer = DictVectorizer()
x_train = transfer.fit_transform(x_train)
x_test = transfer.transform(x_test)# 3、创建训练模型,,传入数据
estimator = RandomForestClassifier()
estimator.fit(x_train, y_train)# 4、模型评估
score = estimator.score(x_test, y_test)
print("准确率为:\n", score)

        

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/474194.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SpringBoot Data Redis连接Redis-Cluster集群

使用SpringBoot Data Redis无法连接Redis-Cluster集群 最近在研究系统高并发下的缓存架构,因此自己在自己买的云服务器上搭建好Redis 5.0 版本的集群后,使用springboot的 RedisTemplate连接是发现总是访问不到集群节点。上网百度了发现没有好的解决办法&…

网页作业9

<!DOCTYPE html> <html lang"zh-CN"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>服务中心</title><style>* {margin:…

基于yolov8、yolov5的行人检测识别系统(含UI界面、训练好的模型、Python代码、数据集)

摘要&#xff1a;行人检测在交通管理、智能监控和公共安全中起着至关重要的作用&#xff0c;不仅能帮助相关部门实时监控人群动态&#xff0c;还为自动化监控系统提供了可靠的数据支撑。本文介绍了一款基于YOLOv8、YOLOv5等深度学习框架的行人检测模型&#xff0c;该模型使用了…

递归(3)----力扣40组合数2,力扣473火柴拼正方形

给定一个候选人编号的集合 candidates 和一个目标数 target &#xff0c;找出 candidates 中所有可以使数字和为 target 的组合。 candidates 中的每个数字在每个组合中只能使用 一次 。 注意&#xff1a;解集不能包含重复的组合。 示例 1: 输入: candidates [10,1,2,7,6,1…

1Panel 推送 SSL 证书到阿里云、腾讯云

本文首发于 Anyeの小站&#xff0c;点击链接 访问原文体验更佳 前言 都用 CDN 了还在乎那点 1 年证书钱么&#xff1f; 开句玩笑话&#xff0c;按照 Apple 的说法&#xff0c;证书有效期不该超过 45 天。那么证书有效期的缩短意味着要更频繁地更新证书。对于我这样的“裸奔”…

通过shell脚本分析部署nginx网络服务

通过shell脚本分析部署nginx网络服务 1.接收用户部署的服务名称 [rootlocalhost xzy]# vim 1.sh [rootlocalhost xzy]# chmod x 1.sh [rootlocalhost xzy]# ./1.sh2.判断服务是否安装 已安装&#xff1b;自定义网站配置路径为/www&#xff1b;并创建共享目录和网页文件&…

tcp 超时计时器

在 TCP&#xff08;传输控制协议&#xff09;中有以下四种重要的计时器&#xff1a; 重传计时器&#xff08;Retransmission Timer&#xff09; 作用&#xff1a;用于处理数据包丢失的情况。当发送方发送一个数据段后&#xff0c;就会启动重传计时器。如果在计时器超时之前没有…

华为云租户网络-用的是隧道技术

1.验证租户网络是vxlan 2.验证用OVS 2.1控制节点VXLAN 本端ip&#xff08;local ip&#xff09;192.168.31.8 2.2计算节点VXLAN 本端ip&#xff08;local ip&#xff09;192.168.31.11 计算节点用的是bond0做隧道网络 2.3查看bond文件是否主备模式

【AI+教育】一些记录@2024.11.11

《清华发布工具学习框架&#xff0c;让ChatGPT操控地图、股票查询&#xff0c;贾维斯已来&#xff1f;》 清华发布工具学习框架&#xff0c;让ChatGPT操控地图、股票查询&#xff0c;贾维斯已来&#xff1f;工具学习&#xff0c;清华天团让 ChatGPT 拿起专业工具https://mp.we…

day-17 反转字符串中的单词

利用split()函数和substring函数 code: class Solution {public String reverseWords(String s) {int m0;while(s.charAt(m) ){m;}ss.substring(m);String arr[]s.split("[\\s]");int narr.length;String ss"";for(int in-1;i>1;i--){ssssarr[i]"…

台式电脑没有声音怎么办?台式电脑没有声音解决详解

台式电脑一般来说都是没有内置扬声器的&#xff0c;需要连接耳机或者是音响才可以播放音乐。那么如果遇到台式电脑没有声音的问题&#xff0c;我们也需要确认这些设备硬件有没问题&#xff0c;知道原因才可以进行处理。下面本文将为你介绍台式电脑没有声音的可能原因和解决方法…

一文速学---红黑树

文章目录 一、红黑树简介二、 红黑树特性三、红黑树插入3.1 红黑树为空3.2 父节点为黑色3.3 父节点为红色3.3.1 父亲和叔叔都是红色3.3.2 父节点为红色&#xff0c;叔叔节点为黑色3.3.2.1 父节点在左节点&#xff0c;插入节点在父亲左节点3.3.2.2 父节点在左节点&#xff0c;插…

gitlab容器的迁移(部署)并配置自动备份

gitlab容器的迁移&#xff08;部署&#xff09;并配置自动备份 本文背景为从Ubuntu服务器上迁移gitlab容器到windows并备份&#xff0c;若要直接拉取镜直接安装配置可直接从第二小标题参考 1、原Ubuntu的gitlab容器制作为镜像 2.1 将运行的容器制为镜像 #镜像&#xff1a;i…

Linux:调试器-gdb/cgdb

文章目录 一、编译成debug1、-g 选项 二、gdb调试命令1、在CentOS系统下检查安装gdb2、进入gdb模式3、quit 退出gdb4、list &#xff08;简写 l&#xff09;显示文件内容5、b 打断点6、 r / run运行程序7、c 让程序直接运行完 三、cgdb1、info b查看打的所有断点2、d 删除断点3…

基于差分、粒子群算法下的TSP优化对比

TSP问题&#xff0c;即旅行商问题&#xff08;Traveling Salesman Problem&#xff09;&#xff0c;是数学领域中的一个著名问题。以下是对TSP问题的详细解释&#xff1a; 一、问题定义 假设有一个旅行商人要拜访n个城市&#xff0c;他必须选择所要走的路径&#xff0c;路径的…

17.100ASK_T113-PRO 配置QT运行环境(三)

前言 1.打开QT,新建项目. 做成以下效果,会QT都没有问题吧 编译输出: /home/book/LED_and_TempHumi/build-LED_and_TempHumi-100ask-Debug LED_and_TempHumi 2.下载程序与测试 设置运行环境 export QT_QPA_PLATFORMlinuxfb 这个地方还需要加字体,不然不会显示字体.

智慧社区平台系统提升物业管理效率与居民生活质量

内容概要 智慧社区平台系统是为应对现代城市管理挑战而诞生的重要工具。随着城市化进程的加快&#xff0c;传统的物业管理方式已经难以满足日益增长的居民需求和管理复杂性。因此&#xff0c;引入智能化管理手段显得尤为重要。这个系统不仅仅是一个简单的软件&#xff0c;它是…

远程jupyter lab的配置

打开虚拟环境 conda activate test 在环境下安装ipykernel软件包&#xff0c;这个软件包允许jupyter notebookl使用特定环境的python版本。 conda install ipykernel 将该环境添加到Jupyter Notebook中 python -m ipykernel install --user --nametest --display-name&quo…

python+Django+MySQL+echarts+bootstrap制作的教学质量评价系统,包括学生、老师、管理员三种角色

项目介绍 该教学质量评价系统基于Python、Django、MySQL、ECharts和Bootstrap技术&#xff0c;旨在为学校或教育机构提供一个全面的教学质量评估平台。系统主要包括三种角色&#xff1a;学生、老师和管理员&#xff0c;每个角色有不同的功能权限。 学生角色&#xff1a;学生可…

找不到vcruntime140.dll怎么办,彻底解决vcruntime140.dll丢失的5种方法

当计算机系统中无法找到vcruntime140.dll这个特定的动态链接库文件时&#xff0c;可能会引发一系列运行问题&#xff0c;具体表现形式多样且影响范围较广。对于依赖于该文件运行的各类软件应用来说&#xff0c;缺失vcruntime140.dll将直接导致程序无法正常启动或执行&#xff0…