【简博士统计学习方法】第1章:2. 统计学习方法的基本分类

2. 统计学习方法的基本分类

监督学习所学习的数据都是已经标注过的;无监督学习所学习的数据没有标注信息;半监督学习只含有少量标注,大多数没有标注(利用已标注的数据来学习去标注未标注的数据)

2.1 监督学习


图里的点称作是一个实例,可以通过坐标来表达,颜色类别不同(颜色类别称为输出)
输入是每一个实例,输出是颜色类别,输入和输出成对的出现就称之为是一个样本,将这些样本作为训练集进行一个监督学习。

监督学习(Supervised Learning)是指从标注数据中学习预测模型的机器学习问题,其本质是学习输入到输出的映射的统计规律。
映射:两个集合中的元素相互对应的关系。

监督学习主要学习输入到输出之间的映射关系。

  • 输入空间(Input Space):输入的所有可能取值的集合。
  • 实例(Instance):每一个具体的输入,通常由特征向量(Feature Vector)表示。
  • 特征空间(Feature Space):所有特征向量存在的空间。
  • 输出空间(Output Space):输出的所有可能取值的集合。

根据变量类型不同

  • 输入变量与输出变量均为连续变量的预测问题———回归问题
  • 输出变量为有限个离散变量的预测问题————分类问题
  • 输入变量与输出变量均为变量序列的预测问题————标注问题

符号表示

  • 输入变量: X X X;输入变量的取值: x x x.
  • 输出变量: Y Y Y;输出变量的取值: y y y.
  • 输入实例 x x x的特征向量表示:
    x = ( x ( 1 ) , x ( 2 ) , ⋯ , x ( j ) , ⋯ , x ( n ) ) T x=\left(x^{(1)}, x^{(2)}, \cdots, x^{(j)}, \cdots, x^{(n)}\right)^{T} x=(x(1),x(2),,x(j),,x(n))T
  • x i x_i xi表示多个输入变量中的第 i i i个变量:
    x i = ( x i ( 1 ) , x i ( 2 ) , ⋯ , x i ( j ) , ⋯ , x i ( n ) ) T x_{i}=\left(x_{i}^{(1)}, x_{i}^{(2)}, \cdots, x_{i}^{(j)}, \cdots, x_{i}^{(n)}\right)^{T} xi=(xi(1),xi(2),,xi(j),,xi(n))T
  • 样本容量为 N N N的训练集:
    T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) ⋯ , ( x N , y N ) } T=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right) \cdots,\left(x_{N}, y_{N}\right)\right\} T={(x1,y1),(x2,y2),(xN,yN)}

监督学习的基本假设: X X X Y Y Y具有联合概率分布 P ( X , Y ) P(X,Y) P(X,Y)

【前置知识】
联合概率分布(Joint Probability Distribution)是描述两个或多个随机变量同时发生的概率的数学函数。在概率论中,当我们有多个随机变量时,联合概率分布告诉我们这些随机变量同时取某些特定值的概率。

  1. 基本概念
    假设我们有两个离散型随机变量 X X X Y Y Y,联合概率分布就是一个定义在这两个变量上的概率分布,表示 X X X Y Y Y同时取某些特定值的概率。具体来说,联合概率分布 P ( X = x , Y = y ) P(X=x,Y=y) P(X=x,Y=y)就是 X X X取值为 x x x Y Y Y取值为 y y y的概率。
    如果 X X X Y Y Y是连续型随机变量,则联合概率分布通常是一个联合概率密度函数 f ( x , y ) f(x,y) f(x,y),它描述了在给定的点 ( x , y ) (x,y) (x,y)附近的概率密度
    【注】概率密度(Probability Density):是概率论中用于描述连续随机变量的一个重要概念。它表示在某个点附近的概率分布的“密集程度”,即随机变量取某个特定值的“概率密度”。不过,与离散随机变量的概率不同,连续随机变量的概率分布不直接给出某个值的概率,而是通过密度函数来描述该值所在区间的概率。
  2. 联合概率分布的表示
  • 离散型随机变量
    对于离散型随机变量 X X X Y Y Y,其联合概率分布可以通过一个概率表来表示,其中每个表格项表示 P ( X = x , Y = y ) P(X=x,Y=y) P(X=x,Y=y),即 X X X Y Y Y取特定值的联合概率。
    例如,假设我们掷两个骰子,令 X X X为第一个骰子的点数, Y Y Y为第二个骰子的点数,那么联合概率分布可以通过以下表格表示:
X \ Y X \backslash Y X\Y123456
1 1 36 \frac{1}{36} 361 1 36 \frac{1}{36} 361 1 36 \frac{1}{36} 361 1 36 \frac{1}{36} 361 1 36 \frac{1}{36} 361 1 36 \frac{1}{36} 361
2 1 36 \frac{1}{36} 361 1 36 \frac{1}{36} 361 1 36 \frac{1}{36} 361 1 36 \frac{1}{36} 361 1 36 \frac{1}{36} 361 1 36 \frac{1}{36} 361
3 1 36 \frac{1}{36} 361 1 36 \frac{1}{36} 361 1 36 \frac{1}{36} 361 1 36 \frac{1}{36} 361 1 36 \frac{1}{36} 361 1 36 \frac{1}{36} 361
4 1 36 \frac{1}{36} 361 1 36 \frac{1}{36} 361 1 36 \frac{1}{36} 361 1 36 \frac{1}{36} 361 1 36 \frac{1}{36} 361 1 36 \frac{1}{36} 361
5 1 36 \frac{1}{36} 361 1 36 \frac{1}{36} 361 1 36 \frac{1}{36} 361 1 36 \frac{1}{36} 361 1 36 \frac{1}{36} 361 1 36 \frac{1}{36} 361
6 1 36 \frac{1}{36} 361 1 36 \frac{1}{36} 361 1 36 \frac{1}{36} 361 1 36 \frac{1}{36} 361 1 36 \frac{1}{36} 361 1 36 \frac{1}{36} 361

这个表格表示 X X X Y Y Y取每一对点数的联合概率。例如, P ( X = 1 , Y = 2 ) = 1 36 P(X=1,Y=2)=\frac{1}{36} P(X=1,Y=2)=361表示投掷后,第一个骰子点数为1,第二个骰子点数为2的概率是 1 36 \frac{1}{36} 361 .

  • 连续型随机变量
    对于连续型随机变量 X X X Y Y Y,联合概率分布用联合概率密度函数 f ( x , y ) f(x,y) f(x,y)表示,它满足:
    P ( a ⩽ X ⩽ b , c ⩽ Y ⩽ d ) = ∫ a b ∫ c d f ( x , y ) d y d x P(a \leqslant X \leqslant b, c \leqslant Y \leqslant d)=\int_{a}^{b} \int_{c}^{d} f(x, y) d y d x P(aXb,cYd)=abcdf(x,y)dydx
    其中, f ( x , y ) f(x,y) f(x,y)是联合概率密度函数,表示在某个点 ( x , y ) (x,y) (x,y)处的概率密度。
  1. 边缘概率分布
    联合概率分布 P ( X , Y ) P(X,Y) P(X,Y)可以通过边缘化(即求和或积分)得到单个随机变量的概率分布:
  • 对于离散型随机变量,边缘概率是通过对其他随机变量求和得到的:
    P ( X = x ) = ∑ y P ( X = x , Y = y ) P(X=x)=\sum\limits_{y} P(X=x, Y=y) P(X=x)=yP(X=x,Y=y)
  • 对于连续型随机变量,边缘概率是通过对其他变量积分得到的:
    P ( X = x ) = ∫ − ∞ ∞ f ( x , y ) d y P(X=x)=\int_{-\infty}^{\infty} f(x, y) d y P(X=x)=f(x,y)dy
  1. 条件概率分布
    联合概率分布还与条件概率分布密切相关。条件概率是指在已知一个随机变量取某个值的条件下,另一个随机变量取某个值的概率。条件概率可以通过联合概率和边缘概率来表示:
  • 对于离散型变量:
    P ( X = x ∣ Y = y ) = P ( X = x , Y = y ) P ( Y = y ) P(X=x \mid Y=y)=\frac{P(X=x, Y=y)}{P(Y=y)} P(X=xY=y)=P(Y=y)P(X=x,Y=y)
  • 对于连续型变量:
    f ( x ∣ y ) = f ( x , y ) f Y ( y ) f(x \mid y)=\frac{f(x, y)}{f_{Y}(y)} f(xy)=fY(y)f(x,y)
    其中 f Y ( y ) f_{Y}(y) fY(y) Y Y Y的边缘概率密度。

监督学习的目的:学习一个输入到输出的映射,这一映射以模型表示。

模型的形式:条件概率分布 P ( Y ∣ X ) P(Y|X) P(YX)或决策函数 Y = f ( X ) Y=f(X) Y=f(X)

假设空间(Hypothesis Space):所有这些可能模型的集合。

对具体的输入进行相应的输出预测时,表达为 P ( y ∣ x ) P(y|x) P(yx) y = f ( x ) y=f(x) y=f(x)

输入输出是成对出现, ( x i , y i ) (x_i,y_i) (xi,yi)是一个样本,通过训练集学习训练出一个模型来,这个模型既可以表达成条件概率分布的形式,也可以表达成决策函数的形式。符号加小帽子 p ^ \hat{p} p^这种就代表着我们这个模型是通过学习而得到的。
y N + 1 = arg ⁡ max ⁡ y P ^ ( y ∣ x N + 1 ) y_{N+1}=\arg \max _{y} \hat{P}\left(y \mid x_{N+1}\right) yN+1=argmaxyP^(yxN+1)是指取条件概率最大的那个结果,arg是取什么什么值。

2.2 无监督学习


通过聚类方法将其分为两个簇,上面一簇下面一簇(如上图),这就是无监督学习。

无监督学习(Unsupervised Learning)是指从无标注数据中学习预测模型的机器学习问题。其本质是学习数据中的统计规律或潜在结构。


几个符号的概念:

  • 输入空间 X \mathcal{X} X.
  • 隐式结构空间(隐含在数据内部的信息): Z \mathcal{Z} Z.
  • 模型:函数 z = g ( x ) z=g(x) z=g(x),条件概率分布 P ( z ∣ x ) P(z|x) P(zx)或条件概率分布 P ( x ∣ z ) P(x|z) P(xz).
  • 假设空间(Hypothesis Space):所有这些可能模型的集合。
  • 目的:选出在给定评价标准下的最优模型。
  • 样本容量为 N N N的训练集:
    U = { x 1 , x 2 , ⋯ , x N } U=\{x_1,x_2,\cdots,x_N\} U={x1,x2,,xN}

无监督学习的流程图为:

就是没了训练过程,其余和监督学习的符号意义差不多。

2.3 强化学习

就是智能系统和环境的互动。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/505386.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Unity3d 基于Barracuda推理库和YOLO算法实现对象检测功能

前言 近年来,随着AI技术的发展,在游戏引擎中实现和运行机器学习模型的需求也逐渐显现。Unity3d引擎官方推出深度学习推理框架–Barracuda ,旨在帮助开发者在Unity3d中轻松地实现和运行机器学习模型,它的主要功能是支持在 Unity 中…

IEC61850遥控-增强安全选控是什么?

摘要:遥控服务是IEC61850协议中非常重要的一项服务,其通常会被应用在电源开关、指示灯、档位调节等器件的操作。 遥控是一类比较特殊的操作,其通过远程方式操作指定的设备器件,在一些重要的场景中需要有严谨的机制来进行约束&…

[免费]微信小程序(高校就业)招聘系统(Springboot后端+Vue管理端)【论文+源码+SQL脚本】

大家好,我是java1234_小锋老师,看到一个不错的微信小程序(高校就业)招聘系统(Springboot后端Vue管理端),分享下哈。 项目视频演示 【免费】微信小程序(高校就业)招聘系统(Springboot后端Vue管理端) Java毕业设计_哔哩哔哩_bilibili 项目介绍…

基于vue的商城小程序的毕业设计与实现(源码及报告)

环境搭建 ☞☞☞ ​​​Vue入手篇(一),防踩雷(全网最详细教程)_vue force-CSDN博客 目录 一、功能介绍 二、登录注册功能 三、首页 四、项目截图 五、源码获取 一、功能介绍 用户信息展示:页面顶部设有用户头像和昵称展示区,方便用户识别…

IDEA配置maven和git并如何使用maven打包和git推送到gitlab

首先找到设置 在里面输入maven然后找到点击 然后点击右边两个选项 路径选择下载的maven目录下的settings文件和新建的repository文件夹 点击apply应用 然后在搜索框里搜git点击进去 此路径为git的exe执行文件所在目录,选好之后点击test测试下方出现git版本号表…

04、Redis深入数据结构

一、简单动态字符串SDS 无论是Redis中的key还是value,其基础数据类型都是字符串。如,Hash型value的field与value的类型,List型,Set型,ZSet型value的元素的类型等都是字符串。redis没有使用传统C中的字符串而是自定义了…

Python教程丨Python环境搭建 (含IDE安装)——保姆级教程!

工欲善其事,必先利其器。 学习Python的第一步不要再加收藏夹了!提高执行力,先给自己装好Python。 1. Python 下载 1.1. 下载安装包 既然要下载Python,我们直接进入python官网下载即可 Python 官网:Welcome to Pyt…

springmvc前端传参,后端接收

RequestMapping注解 Target({ElementType.METHOD, ElementType.TYPE}) Retention(RetentionPolicy.RUNTIME) Documented Mapping public interface RequestMapping {String name() default "";AliasFor("path")String[] value() default {};AliasFor(&quo…

数据库环境安装(day1)

网址:MySQL 下载(环境准备): (2-5点击此处,然后选择合适的版本) 1.linux在线YUM仓库 下载/安装: wget https://repo.mysql.com//mysql84-community-release-el9-1.noarch.rpm rpm -i https://r…

【MySQL系列文章】Linux环境下安装部署MySQL

前言 本次安装部署主要针对Linux环境进行安装部署操作,系统位数64 getconf LONG_BIT 64MySQL版本:v5.7.38 一、下载MySQL MySQL下载地址:MySQL :: Download MySQL Community Server (Archived Versions) 二、上传MySQL压缩包到Linuxx环境&#xff0c…

eNSP之家----ACL实验入门实例详解(Access Control List访问控制列表)(重要重要重要的事说三遍)

ACL实验(Access Control List访问控制列表)是一种基于包过滤的访问控制技术,它可以根据设定的条件对接口上的数据包进行过滤,允许其通过或丢弃。访问控制列表被广泛地应用于路由器和三层交换机。 准备工作 在eNSP里面部署设备&a…

web-app uniapp监测屏幕大小的变化对数组一行展示数据作相应处理

web-app uniapp监测屏幕大小的变化对数组一行展示数据作相应处理 1.uni.getSystemInfoSync().screenWidth; 获取屏幕宽度 2.uni.onWindowResize() 实时监测屏幕宽度变化 3.根据宽度的大小拿到每行要展示的数量itemsPerRow 4.为了确保样式能够根据 items…

《零基础Go语言算法实战》【题目 1-14】字符串的替换

《零基础Go语言算法实战》 【题目 1-14】字符串的替换 请编写一个函数,将字符串中的空格全部替换为“%20”。假定该字符串有足够的空间存 放新增的字符,并且知道字符串的真实长度(≤ 1000),同时保证字符串由大小写的…

WebSocket 测试入门篇

Websocket 是一种用于 H5 浏览器的实时通讯协议,可以做到数据的实时推送,可适用于广泛的工作环境,例如客服系统、物联网数据传输系统, 基础介绍 我们平常接触最多的是 http 协议的接口,http 协议是请求与响应的模式&…

音视频入门基础:MPEG2-PS专题(6)——FFmpeg源码中,获取PS流的视频信息的实现

音视频入门基础:MPEG2-PS专题系列文章: 音视频入门基础:MPEG2-PS专题(1)——MPEG2-PS官方文档下载 音视频入门基础:MPEG2-PS专题(2)——使用FFmpeg命令生成ps文件 音视频入门基础…

代码随想录算法训练营day27

代码随想录算法训练营 —day27 文章目录 代码随想录算法训练营前言一、贪心算法理论基础二、455.分发饼干三、376. 摆动序列53. 最大子数组和总结 前言 今天是算法营的第27天,希望自己能够坚持下来! 今日任务: ● 贪心算法理论基础 ● 455.…

idea全局替换显示不全(ctrl+shift+R)

修改一下idea的配置就行 idea的默认显示条数为100,可以修改成10000

新版2024AndroidStudio项目目录结构拆分

如题 下载了最新版的android studio 发现目录结构和以前不一样 自动帮你合并了 如何层层抽丝剥茧呢 按照一下步骤即可解决问题!

vue el-table 数据变化后,高度渲染问题

场景:el-table设置了height属性,但是切换查询条件后再次点击查询重新获取data时,el-table渲染的高度会有问题,滚动区域变矮了。 解决办法:使用doLayout方法‌,在表格数据渲染后调用doLayout方法可以重新布局…

一.MySQL程序简介

整体介绍 1.服务端mysqld(可执行文件) mysqld --verbose --help 2.客户端mysql(可执行文件) 3.其它工具包程序