01 机器学习概述

目录

1. 基本概念

2. 机器学习三要素

3. 参数估计的四个方法

3.1  经验风险最小化

3.2  结构风险最小化

3.3  最大似然估计

3.4  最大后验估计

4. 偏差-方差分解

5. 机器学习算法的类型

6. 数据的特征表示

7.  评价指标


1. 基本概念

        机器学习Machine LearningML就是研究如何让计算机从数据中进行自动学习,得到某种知识(或规律)并利用学习到的规律(模型)对未知或无法观测的数据进行预测

        机器学习的任务,比如光学字符识别、语音识别、人脸识别等.这些任务的特点是,对于我们人类而言很容易完成,但我们不知道自己是如何做到的,因此也很难人工设计一个计算机程序来完成这些任务。比如:下图中的手写数字识别,对人来说认识0~9很简单,但对计算机来说却十分困难.。

        在计算机中,一切皆数据,包括声音、图片或视频,均会被计算机转换为数组读取!

2. 机器学习三要素

3. 参数估计的四个方法

       关于参数分布及先验后验的一些概念,可参看一下文章: 

https://zhuanlan.zhihu.com/p/506449599icon-default.png?t=N7T8https://zhuanlan.zhihu.com/p/506449599

3.1  经验风险最小化

       这种方法用于求解线性回归参数时,也叫 最小二乘法 Least Square Method LSM ): 

       由于这种方法要求(XX^T) 必须有逆矩阵(满秩),而实际情况是(XX^T)并不一定满秩,这会导致参数\textbf{w}^*有多个解.。因此,一般会对数据预处理,比如通过主成分分析消除不同特征之间的相关性,使其满秩。

3.2  结构风险最小化

        如果数据量大且特征非常多,那么特征间可能存在多重共线性,即使预处理了数据,也会使得最小二乘法计算结果不稳定。为了解决这个问题,Hoerl等人提出了岭回归(Ridge Regression),也就是给(XX^T)的对角线元素都加上一个常数\lambda,使(XX^T+\lambda I)满秩,这种方法表现在风险函数上即为(相较经验风险函数)增加了一个正则项:

3.3  最大似然估计

        最大似然估计 Maximum Likelihood Estimation MLE 是指找到一组参数使似然函数的值最大,也等价于对数似然函数的值最大。最大似然估计参数方法如下:

 可以看出最大似然估计的解和最小二乘法的解相同。

3.4  最大后验估计

        最大似然估计的一个缺点是当训练数据比较少时会发生过拟合,估计的参数可能不准确.为了避免过拟合我们可以给参数加上一些先验知识,即基于经验对要估计的参数加上一定的限制,这样得到的参数称为最大后验估计,计算方法如下:

可以看出,最大后验概率等价于平方损失的结构风险最小化,其中正则化系数\lambda =\sigma ^2/\nu ^2

由于贝叶斯求解复杂,最大后验概率是贝叶斯学派的一种近似手段,最大后验估计和最大似然估计很像,只是多了一项先验分布,它体现了贝叶斯认为参数也是随机变量的观点,在实际运算中通常通过超参数给出先验分布

最大似然估计和贝叶斯估计可以分别看作频率学派和贝叶斯学派对需要估计参数的不同解释。

4. 偏差-方差分解

      关于偏差(bias)和方差(Variance)的概念可参看下面这篇文章:

偏差(bias)和方差(Variance)icon-default.png?t=N7T8https://blog.csdn.net/nanhuaibeian/article/details/102658419?ops_request_misc=&request_id=&biz_id=102&utm_term=%E5%81%8F%E5%B7%AE%E5%92%8C%E6%96%B9%E5%B7%AE&utm_medium=distribute.pc_search_result.none-task-blog-2~all~sobaiduweb~default-0-102658419.nonecase&spm=1018.2226.3001.4187

      针对于高偏差和高方差的解决措施,可参看我之前的文章:

《吴恩达机器学习 第二课 week3 学习算法(模型)进阶》icon-default.png?t=N7T8https://blog.csdn.net/weixin_43490087/article/details/139709608?spm=1001.2014.3001.5501

     偏差方差分解,是一种重要的分析技术,‌用于解释学习算法泛化能力。‌

     偏差方差分解将学习算法的期望误差分解为三个非负项的和,‌即样本真实噪声、‌偏差方差。‌这种分解帮助我们从统计学派的视角看待模型复杂度,‌提供了一种理解模型泛化性能的方法。‌如下:

5. 机器学习算法的类型

6. 数据的特征表示

       在实际应用中,数据的类型多种多样,比如文本、音频、图像、视频等,不同类型的数据,其原始特征(Raw Feature)的空间也不相同。而很多机器学习算法要求输入的样本特征是数学上可计算的,因此在机器学习之前我们需要将这些不同类型的数据转换为向量表示。

      (也有一些机器学习算法(比如决策树)不需要向量形式的特征)

 图像特征:表示为 𝑀 × 𝑁 维的向量,为了提高模型准确率,会经常加入一个额外的特征比如直方图宽高比、笔画数纹理特征边缘特征等。

文本特征:从文本形式转为向量形式一种简单的方式是使用词袋Bag-of-WordsBoW)模型,比如两个文本我 喜欢 读书我 讨厌 读书中共有”“喜欢”“”“读书四个词它们的BoW表示分别为[1 1 0 1]和[1 0 1 1]。

词袋模型将文本看作词的集合不考虑词序信息不能精确地表示文本信

一种改进方式是使用N元特征N-Gram Feature),即每𝑁 个连续词构成一个基本单元然后再用词袋模型进行表示以最简单的二元特征即两个词的组合特征)为例上面的两个文本中共有”“我喜欢”“我讨厌”“喜欢读书”“厌读书”“读书六个特征单元,随着 𝑁 的增长N 元特征的数量会指数上升,因此,在实际应用中,文本特征维数通常在十万或百万级别以上

特征工程(Feature Engineering)是指通过人工方式进行提取特征。一个成功的机器学习系统通常需要尝试大量的特征。

让机器自动地学习出有效的特征的研究内容,称为特征学习(Feature Learning),也叫表示学习Representation Learning)。

7.  评价指标

     (1)准确率(所有类别整体性能的平均

         最常用的评价指标为 准确率 Accuracy ):

     (2)错误率

       和准确率相对应的就是错误率Error Rate):

      (3)精确率和召回率(单个类进行性能估计

        准确率是所有类别整体性能的平均 如果希望对每个类都进行性能估计, 就需要计算 精确率 Precision 召回率 Recall ):

 

        精确率Precision),也叫精度查准率

        召回率 Recall ), 也叫 查全率:

        F F Measure 是一个综合指标 为精确率和召回率的调和平均

其中𝛽 用于平衡精确率和召回率的重要性一般取值为1𝛽 = 1时的F值称为F1 值。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/380355.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【GraphRAG】微软 graphrag 效果实测

GraphRAG 本文将基于以下来源,对Microsoft GraphRAG分析优缺点、以及示例实测分析。 1. Source 代码仓库: Welcome to GraphRAGhttps://microsoft.github.io/graphrag/ 微软文章1(2024.2.13):GraphRAG: Unlocking…

FinClip 率先入驻 AWS Marketplace,加速全球市场布局

近日,凡泰极客旗下的小程序数字管理平台 FinClip 已成功上线亚马逊云科技(AWS)Marketplace。未来,FinClip 将主要服务于海外市场的开放银行、超级钱包、财富管理、社交电商、智慧城市解决方案等领域。 在全球市场的多样性需求推动…

Guns v7.3.0:基于 Vue3、Antdv 和 TypeScript 打造的开箱即用型前端框架

摘要 本文深入探讨了Guns v7.3.0前端项目,该项目是基于Vue3、Antdv和TypeScript的前端框架,以Vben Admin的脚手架为基础进行了改造。文章分析了Guns 7.3.0的技术特点,包括其使用Vue3、vite2和TypeScript等最新前端技术栈,以及提供…

缓存弊处的体验:异常

缓存(cache),它是什么东西,有神马用,在学习内存的时候理解它作为一个存储器,来对接cpu和内存,来调节cpu与内存的速度不匹配的问题。 缓存,一个偶尔可以听到的专业名词,全…

哪种SSL证书可以快速签发保护http安全访问?

用户访问网站,经常会遇到访问http网页时,提示网站不安全或者不是私密连接的提示,因为http是使用明文传输,数据传输中可能被篡改,数据不被保护,通常需要SSL证书来给数据加密。 SSL证书的签发速度&#xff0…

甲骨文闲置ARM实例防回收的方法

前几日挖了个大坑,今天补一下,谈谈甲骨文闲置实例如何防止回收。 回收原则 2022年11月16日 Oracle添加声明: 从 2022 年 11 月 24 日开始,您闲置的 Always Free 计算实例可能会停止。巴拉巴拉,您还可以随时升级您的帐…

【Outlook】从Outlook新版回归经典版全攻略

引言 在微软宣布计划于2024年底淘汰邮件应用(Mail app)之后,许多用户发现新版Outlook应用(Outlook (new))在他们的Windows 11/10系统上自动启动。如果您更倾向于使用经典版Outlook(Outlook (classic)&…

LeetCode热题100刷题16:74. 搜索二维矩阵、33. 搜索旋转排序数组、153. 寻找旋转排序数组中的最小值、98. 验证二叉搜索树

74. 搜索二维矩阵 class Solution { public:bool searchMatrix(vector<vector<int>>& matrix, int target) {int row matrix.size();int col matrix[0].size();for(int i0;i<row;i) {//先排除一下不存在的情况if(i>0&&matrix[i][0]>target…

中介者模式(行为型)

目录 一、前言 二、中介者模式 三、总结 一、前言 中介者模式&#xff08;Mediator Pattern&#xff09;是一种行为型设计模式&#xff0c;又成为调停者模式&#xff0c;用一个中介对象来封装一系列的对象交互。中介者使各对象不需要显式地互相引用&#xff0c;从而使其耦合…

【Redis】Redis7学习笔记

系列文章目录 【Redis】Redis十大类型 【Redis】Redis持久化 【Redis】事务 【Redis】管道 【Redis】发布/订阅(Pub/Sub) 【Redis】复制(Replica) 【Redis】哨兵(sentinel) 【Redis】集群 Redis【Remote Dictionary Server&#xff08;远程字典服务器&#xff09;】是用…

CentOS 7 安装Jenkins2.346.1(war方式安装)

既然想要安装Jenkins&#xff0c;肯定是先要从官网解读所需环境配置信息&#xff0c;如需了解更多自行查阅 https://www.jenkins.io/doc/book/installing/linux/ JDK17&#xff0c;Maven3.9 安装 先从官网分别下载JDK17与Maven3.9 下载好之后上传至服务器、并解压&#xff1a…

澎湃算力 玩转AI 华为昇腾AI开发板——香橙派OriengePi AiPro边缘计算案例评测

澎湃算力 玩转AI 华为昇腾AI开发板 香橙派OriengePi AiPro 边缘计算案例评测 人工智能&#xff08;AI&#xff09;技术正以前所未有的速度改变着我们的生活、工作乃至整个社会的面貌。作为推动这一变革的关键力量&#xff0c;边缘计算与AI技术的深度融合正成为行业发展的新趋势…

控制欲过强的Linux小进程

控制欲强?视奸&#xff1f;普通人那才叫视奸&#xff0c;您是皇帝&#xff0c;天下大事无一逃过您的耳目&#xff0c;您想看什么就看什么&#xff0c;臣怀疑他在朋友圈私养兵士&#xff0c;囤积枪甲&#xff0c;蓄意谋反&#xff0c;图谋皇位啊&#xff01; 哈哈哈哈开个玩笑&…

正则表达式(Ⅰ)——基本匹配

学习练习建议 正则表达式用途非常广泛&#xff0c;各种语言中都能见到它的身影&#xff08;js&#xff0c;java&#xff0c;mysql等&#xff09; 正则表达式可以快读校验/生成/替换符合要求的模式的字符串&#xff0c;而且语法通俗易懂&#xff0c;所以应用广泛 学习链接&am…

git clone加速

gitte克隆法 1.复制链接 2.gitte新建仓库 3.导入 并将原来的目标的url输入 4.从gitte导入 git clone https://gitee.com/gsci-panda/infini-lm2

排序系列 之 快速排序

&#xff01;&#xff01;&#xff01;排序仅针对于数组哦本次排序是按照升序来的哦代码后边有图解哦 介绍 快速排序英文名为Quick Sort 基本思路 快速排序采用的是分治思想&#xff0c;即在一个无序的序列中选取一个任意的基准元素base&#xff0c;利用base将待排序的序列分…

(01)Unity使用在线AI大模型(使用百度千帆服务)

目录 一、概要 二、环境说明 三、申请百度千帆Key 四、使用千帆大模型 四、给大模型套壳 一、概要 在Unity中使用在线大模型分为两篇发布&#xff0c;此篇文档为在Python中使用千帆大模型&#xff0c;整体实现逻辑是&#xff1a;在Python中接入大模型—>发布为可传参的…

算法日记day 12(栈实现队列|队列实现栈|有效的括号)

队列是先进先出的&#xff0c;就像排队一样&#xff0c;谁在前谁先获得服务 栈是一种先进后出的数据结构 一、用栈实现队列 题目&#xff1a; 请你仅使用两个栈实现先入先出队列。队列应当支持一般队列支持的所有操作&#xff08;push、pop、peek、empty&#xff09;&#xf…

uniapp上传功能用uni-file-picker实现

文章目录 html代码功能实现css样式代码 html代码 <uni-file-pickerselect"onFileSelected"cancel"onFilePickerCancel"limit"1"class"weightPage-upload-but"file-mediatype"image"></uni-file-picker><imag…

飞睿智能UWB Tag蓝牙防丢器标签,宠物安全新升级,5cm精准定位测距不迷路

宠物早已成为许多家庭不可或缺的一员&#xff0c;它们用无条件的爱温暖着我们的心房&#xff0c;陪伴我们度过每一个平凡而温馨的日子。然而&#xff0c;随着宠物活动范围的扩大和外界环境的复杂多变&#xff0c;宠物走失的风险也随之增加。每一次出门遛弯&#xff0c;都像是心…