机器学习——绪论总结

目录

一、引入

二、基本术语

三、假设空间与归纳偏

四、模型选择


一、引入

        机器学习:通过计算手段,得出具有能够自我修改、完善能力的模型,利用经验改善系统自身性能。算法使用数据得到模型的过程即称为学习,或训练

        流程:根据输入数据,通过算法得到预测模型,对目标进行预测

        模型类别:分为有监督学习和无监督学习,其中有监督学习主要有分类和回归,无监督学习有如聚类等。关于有监督学习和无监督学习可见另一篇文章        

机器学习:什么是监督学习和无监督学习-CSDN博客

        得到模型之后即可进行预测,会有用于测试测试样本

二、基本术语

        以例子的方式理解一些主要的术语,现有一个问题:如何判断一个西瓜是否是好瓜。取100个西瓜进行研究,则

        数据集:这100个西瓜通过量来表示,即可视为数据集,数据集可分为训练集和测试集

                训练集:训练的过程使用的数据集。

                测试集:进行预测或测试使用的数据集。

        一般机器学习的任务是希望通过对训练集进行学习,建立一个从输入x到输出y的映射——f:X->Y。在学到模型 f 后,对测试集进行测试,看这个模型训练的精度能够达到多少。

        样本:取其中部分西瓜进行研究,可称为样本

        属性:又称特征,描述事物在某个方面的具体表现,常常在数据中的表现形式为数据集的某一列,一个特征表示一列数据。

        属性值:又称特征值,表示某样本在该属性上的具体取值,比如西瓜的体积是 60cm³ 。这个“60cm³ ”在此处即是西瓜大小这一属性的取值

        维度:用于表示特征的多少,如上面三个特征就是三维

        属性空间:又称样本空间,属性张成的空间。是属性的所有可能取值组成的集合,如果属性是多维度的,则属性空间是多维度的集合。

        例:只有一个属性,在该属性上的所有可能取值组成的集合 [1,2,3,...] 构成一维属性空间,若有多个维度,如一个人的年龄,身高,体重构成一个属性空间为三维[[1,2,3,...],[171,181,182,...],[140,152,110,...]]

        特征向量:使用西瓜三个特征——色泽,根蒂,敲声三个属性,作为三个坐标轴,每个西瓜对应一个空间点(一个原点指向该点的坐标向量),每个这种示例称为一个特征向量。

        泛化能力:算法对于未见过的新数据的预测能力

三、假设空间与归纳偏

        假设空间:由于机器学习是学习得到由输入到输出的映射(或模型),对于所有属性的所有取值会构成假设空间。如好西瓜问题的假设空间由“(色泽=XXX)^(根蒂=XXX)^(敲声=XXX)”中所有可能的取值假设构成。

        版本空间:在过程中可以有许多策略对假设空间进行搜索,例如自顶向下、从一般到特殊,不断删除和正例不一致的假设、和与反例一致的假设,最终将会获得与训练集相匹配(即所有训练样本基本都能够判断正确)的假设,这些假设构成版本空间。

        如上述假设空间中,满足“是好西瓜”的特征的假设构成版本空间

        归纳偏好:假如现在版本空间中有三个与训练集相匹配的假设,但是对应的模型在遇到一个新问题时可能会产生不同的预测结果。那么,应该如何选择?这时,学习算法本身的“偏好”就会起到决定性作用。机器学习算法在学习过程中对某种类型假设的偏好,称为:“归纳偏好”。简单来说就是对哪一个特征或模型更相信,可看作学习算法本身在一个有可能很庞大的假设空间中的“价值观”。

        关于这几个概念可以看一下这个例子:

西瓜书《机器学习》阅读笔记1——Chapter1_假设空间_机器学习周志华,西瓜问题假设空间微为65怎么计算的-CSDN博客

        如何来引导算法树立正确的偏好,或者说如何选择合适的模型呢

四、模型选择

        两个重要原则:

        原理1:奥卡姆剃刀:如无必要,勿增实体。即若有多个假设与研究结果一致,选择最简单的

        原理2:NFL原理(没有免费午餐原理):若学习算法 A 在某些问题上比学习算法 B 要好,那么必然存在另一些问题,在这些问题中比 A 表现更好。原理之类的感兴趣朋友可以看看↓

机器学习周志华--没有免费的午餐定理_机器学习的没有免费的午餐的公式证明-CSDN博客

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/248566.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

vs 撤销本地 commit 并保留更改

没想到特别好的办法,我想的是用 vs 打开 git 命令行工具 然后通过 git 命令来撤销提交,尝试之前建议先建个分支实验,以免丢失代码, git 操作见 git 合并多个 commit / 修改上一次 commit

Kotlin快速入门系列9

Kotlin对象表达式和对象声明 对象表达式 有时,我们想要创建一个对当前类有些许修改的对象同时又不想重新声明一个子类。如果是Java,可以用匿名内部类的概念来解决这个问题。kotlin的对象表达式和对象声明就是为了实现这一点(创建一个对某个类做了轻微改…

【极数系列】Flink集成DataSource读取集合数据(07)

文章目录 01 引言02 简介概述03 基于集合读取数据3.1 集合创建数据流3.2 迭代器创建数据流3.3 给定对象创建数据流3.4 迭代并行器创建数据流3.5 基于时间间隔创建数据流3.6 自定义数据流 04 源码实战demo4.1 pom.xml依赖4.2 创建集合数据流作业4.3 运行结果日志 01 引言 源码地…

Flink实战四_TableAPISQL

接上文:Flink实战三_时间语义 1、Table API和SQL是什么? 接下来理解下Flink的整个客户端API体系,Flink为流式/批量处理应用程序提供了不同级别的抽象: 这四层API是一个依次向上支撑的关系。 Flink API 最底层的抽象就是有状态实…

海外云手机对于亚马逊卖家的作用

近年来,海外云手机作为一种新型模式迅速崭露头角,成为专业的出海SaaS平台软件。海外云手机在云端运行和存储数据,通过网页端操作,将手机芯片放置在机房,通过网络连接到服务器,为用户提供便捷的上网功能。因…

双通道音频功率放大电路——D2822M,交越失真,静态电流,外围元件少。开机和关机无冲击噪声

D2822M 用于便携式录音机和收音机作音频功率放大器。 D2822M 采用 DIP8 和 SOP8 封装形式。 特点:  电源电压降到 1.8V 时仍能正常工作  交越失真小  静态电流小  可作桥式或立体声式功放应用  外围元件少  通道分离度高  开机和关机…

【中关村开源生态论坛暨大模型智能应用技术大会】—— 探索AI和开源在未来的应用

🌈个人主页: Aileen_0v0 🔥热门专栏: 华为鸿蒙系统学习|计算机网络|数据结构与算法 ​💫个人格言:“没有罗马,那就自己创造罗马~” #mermaid-svg-9ttR7rpX3BzyF2C4 {font-family:"trebuchet ms",verdana,arial,sans-serif;font-siz…

穷游网酒店数据采集与可视化分析与实现

摘 要 穷游网酒店数据采集与可视化分析大屏的背景是为了满足用户对酒店数据的需求以及提供数据洞察和决策支持。随着旅游业的快速发展,人们对酒店信息的需求日益增加,而穷游网作为一家专注于旅游信息的网站,拥有丰富的酒店数据资源。 这个大…

二维数组的学习

前言 在前面我们学习了一维数组,但是有的问题需要用二位数组来解决。 二维数组常称为矩阵,把二维数组写成行和列的排列形式,可以有助于形象化的理解二维数组的逻辑结构。 一、二维数组的定义 二维数组定义的一般格式: 数据类型 数…

百度智能小程序开发平台:SEO关键词推广优化 带完整的搭建教程

移动互联网的普及,小程序成为了众多企业和开发者关注的焦点。百度智能小程序开发平台为开发者提供了一站式的解决方案,帮助企业快速搭建并推广自己的小程序。本文将重点介绍百度智能小程序开发平台的SEO关键词推广优化功能,并带完整的搭建教程…

ElementUI Form:Radio 单选框

ElementUI安装与使用指南 Radio 单选框 点击下载learnelementuispringboot项目源码 效果图 el-radio.vue 页面效果图 项目里el-radio.vue代码 <script> export default {name: el_radio,data() {return {radio: 1,radio2: 2,radio3: 3,radio4: 上海,radio5: 上海,ra…

数据结构--堆排序(超详细!)

一、前言 堆排序与Top K问题是堆的两大应用&#xff0c;在我们日常也有很广泛的用处 我们已经上面已经说过了堆&#xff0c;这次来说堆的其中一个应用---堆排序。 二、堆排序 堆排序优势在哪里&#xff1f;有什么恐怖之处吗&#xff1f; 重点&#xff1a;拿一个举例&…

fiber学习

React原理&#xff1a;通俗易懂的 Fiber - 掘金

泰迪智能科技生成式人工智能(AIGC)实验室解决方案

AIGC&#xff08;Artificial Intelligence Generated Content&#xff0c;生成式人工智能&#xff09;是一种新的人工智能技术&#xff0c;指的是利用人工智能技术来生成内容。这种技术可以自动生成文本、图像、音频和视频等多种类型的内容&#xff0c;而且内容的质量较高&…

Qt Excel读写 - QXlsx的安装配置以及测试

Qt Excel读写 - QXlsx的安装配置以及测试 引言一、安装配置二、简单测试 引言 Qt无自带的库处理Excel 文件&#xff0c;但可通过QAxObject 借助COM接口进行Excel的读写1。亦可使用免费的开源第三方库&#xff1a;QXlsx&#xff0c;一个基于Qt库开发的用于读写Microsoft Excel文…

Security ❀ TCP异常报文详解

文章目录 1. TCP Out-Of-Order2. TCP Previous Segment Lost3. TCP Retransmission4. TCP Dup Ack XXX#X5. TCP Windows Update6. TCP Previous segment not captured7. 异常案例分析 TCP协议中seq和ack seq的联系&#xff1a; id4的http请求报文由客户端发向服务器&#xff0…

【Prometheus】Prometheus的PromQL语句

Prometheus promQL的语法&#xff1a; #时间序列 node_cpu_guest_seconds_total{cpu"0"} 监控&#xff08;指标数据&#xff09; {标签} node使用CPU的描述的统计&#xff0c;符合标签CPU0的时间序列的查询结果 指标标签生成时间序列 标签&#xff1a; __address…

品牌时代:应对非对称性风险的战略与实践

市场环境中&#xff0c;非对称性风险成为企业必须直面的挑战。非对称性风险指的是企业在经营过程中面临的不确定性因素&#xff0c;这些因素可能导致企业遭受重大损失或获得巨大收益。为了应对这种风险&#xff0c;企业需要从产品导向转向品牌导向&#xff0c;通过品牌建设来提…

解决:ModuleNotFoundError: No module named ‘selenium’

解决&#xff1a;ModuleNotFoundError: No module named ‘selenium’ 文章目录 解决&#xff1a;ModuleNotFoundError: No module named selenium背景报错问题报错翻译报错位置代码报错原因解决方法方法一&#xff0c;直接安装方法二&#xff0c;手动下载安装方法三&#xff0…

跟着cherno手搓游戏引擎【12】渲染context和首个三角形

渲染上下文&#xff1a; 目的&#xff1a;修改WindowsWindow的结构&#xff0c;把glad抽离出来 WindowsWindow.h:新建m_Context #pragma once #include "YOTO/Window.h" #include <YOTO/Renderer/GraphicsContext.h> #include<GLFW/glfw3.h> #include…