【机器学习】 第1章 概述

一、概念

1.机器学习是一种通过先验信息来提升模型能力的方式。    

从数据中产生“模型”( model )的算法,然后对新的数据集进行预测。

2.数据集(Dataset):所有数据的集合称为数据集。

训练集:用来训练出一个适合模型的,相当于人预习用的数据集。

验证集:相当于游戏的内测玩家。

测试集:用来测试训练的模型对不对的数据集。

3.样本(Sample):数据集中 每条记录 称为样本。

4.属性(Attribute)或特征(Feature):每个样本 在某方面 的 表现或性质。

5.特征向量(Feature Vector):每个样本的特征 对应的特征空间中的一个坐标向量。

6.分类(Classification):使用计算机学习出的模型进行预测得到的是离散值。

(1)人话:你是人,他是狗。

(2)有二分类和多分类之分。

7.回归(Regression):使用计算机学习出的模型进行预测得到的是连续值

8.聚类(Clustering):对无标签样本的相似度进行度量,挖掘特征、结构、内在性质,使类内相似度大,类间相似度小。

(1)人话:物以类聚,一样的放一块。

(2)与分类的区别:

a.分类是有监督,聚类是无监督(更diao)

b.聚类只要求相似度高的放一块,而分类则要求分到预定义的类别或标签。

9.输出结果(预测值)与其对应的真实值之间往往会存在一定的差异,这种差异被称为模型的输出误差,简称为误差。

(1)人话:误差=预测值-真实值 (正负先不管)

(2)分三种:

a.训练误差或称经验风险——指模型在训练样本集上的整体误差

b.测试误差——模型在测试样本集上的整体误差

c.泛化误差——测试集的泛化能力,泛化就是举一反三,就是白人是人,黑人也是人。

10.泛化能力:

(1)过拟合:就是过度拟合,猿猴不是人,但是非得说是人。

(2)欠拟合:就是不拟合,黑人是人,但是非得说黑人不算人。

11.机器学习的分类

(1)监督学习:人为干涉让模型更完美

分类:逻辑回归、决策树、KNN、随机森林、支持向量机、朴素贝叶斯

数字预测:线性回归、KNN、梯度提升(Gradient Boosting)、迭代算法(AbaBoost)

(2)非监督式学习:不管机器,让他自己来

典型例子:聚类算法

(3)半监督学习:人为干涉一点点,大部分让机器来,这是三者中最晚诞生的,自己掂量掂量。

(4)强化学习:与环境建立联系,然后各个动作产生的结果进行反馈(奖励或惩罚)。

12.机器学习的步骤:

数据收集+预处理(数据清洗)—— 特征选择+模型构建 —— 评估+测试

(1)模型构建的相关过程:

a. 建立训练数据集和测试数据集,通常80%为训练数据集。

b. 选择机器学习算法

c. 模型调优

d. 模型融合

二、习题

单选题:

1.构建一个完整的机器学习算法需要三个方面的要素,分别是数据、模型和()。

A、评估 B、验证  C、训练和验证 D、性能度量准则

3. 以下属于典型的监督学习的是(C )

A、聚类  B、关联分析  C、分类  D、降维

4. (A  )是指机器学习算法对新鲜样本的适应能力。

A、泛化能力  B、测试能力  C、识别能力  D、训练能力

5. 欠拟合是指(C )

A、在训练集表现非常好,但在测试集上表现很差

B、在训练集表现非常好,但在测试集上表现也非常好

C、在训练集表现非常差,但在测试集上表现很差

D、在训练集表现非常差,但在测试集上表现非常好

6. 如果我使用训练集的全部特征并且能够达到100%的准确率,但在测试集上仅能达到70%左右,这说明(B )

A、欠拟合  B、过拟合  C、模型很棒  D、模型不确定

18. 以下属于典型的无监督学习的是(C )

A、支持向量机

B、k-近邻算法

C、降维

D、逻辑回归

19. 下列关于过拟合的说法错误的是(   )。

A、模型的训练误差比较高,则称此分类模型过拟合。

B、可以通过选取具有代表性样本的训练样本集来解决过拟合问题。

C、模型的训练误差低但是泛化误差比较高,则称此分类模型过拟合。

D、可以通过预剪枝,避免决策树规模过大产生过拟合。

多选题:

1. 根据样本集合中是否包含标签以及半包含标签的多少,可以将机器学习分为(ABD )

A、监督学习  B、无监督学习  C、迁移学习  D、半监督学习

2. 以下属于解决模型过拟合的方法的是(ABD )

A、增加训练数据量  B、对模型进行裁剪  C、增加训练过程的迭代次数  D、正则化

3. 聚类的宗旨是(BD )

A、类内距离最大化 B、类间距离最大化 C、 类间距离最小化 D、类内距离最小化

6. 机器学习中,通常将数据集划分为(ABC  )

A、训练集    B、验证集   C、测试集    D、对照集

判断题:

1. 根据模型预测输出的连续性,可以将机器学习算法适配的问题划分为分类问题和线性问题。(F )

答:回归

2. 降维、聚类是无监督学习算法。(

3. 当我们说模型训练结果过拟合的时候,意思是模型的泛化能力很F )

答:弱

4. 训练误差和泛化误差之间的差异越小,说明模型的泛化性能越好。(T )

17. 特征提取是指对现有特征进行重新组合产生新的特征,例如相对于年龄,出生年月就是冗余特征。(F )

答:从原始数据中抽取出新的特征

19. 聚类的目的是对样本集合进行自动分类,以发掘数据中隐藏的信息、结构,从而发现可能的商业价值。 ()       

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/354307.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于GIS、RS、VORS模型、CCDM模型、geodetecto、GWR模型集成的生态系统健康的耦合协调分析

如何集成多源数据,依托ArcGIS Pro和R语言环境,采用“活力-组织力-恢复力-贡献力”(VORS)模型定量测算生态系统健康指数(EHI);如何从经济城镇化(GDPD)、人口城镇化&#x…

Antd - 上传图片 裁剪图片

目录 本地上传方法【input type"file"】:upload组件【antd】默认接口上传:自定义接口上传:【取消默认上传接口】antd的upload组件beforeUpload还有个比较坑的地方 upload结合裁剪1、antd官方裁剪组件:![在这里插入图片描…

如何通过自己编写Jmeter函数

在Jmeter的函数助手里,有很多内置的函数,比如Random、UUID、time等等。使用这些函数可以快速帮我们生成某些数据,进行一些逻辑处理。用起来非常的方便。 但是在实际接口测试过程中,有很多的需求,Jmeter内置的函数可能…

easyexcel和poi版本冲突报错深入解析v2

easyexcel报错解决 问题 项目由poi改用easyexcel,报错如下: java.lang.NoSuchMethodError: ‘org.apache.poi.ss.usermodel.CellType org.apache.poi.ss.usermodel.Cell.getCellType()’ 原因 easyexcel中的poi和项目原本的poi版本冲突问题。 由于之前做…

移植案例与原理 - HDF驱动框架-驱动配置(2)

1.2.7 节点复制 节点复制可以实现在节点定义时从另一个节点先复制内容,用于定义内容相似的节点。语法如下,表示在定义"node"节点时将另一个节点"source_node"的属性复制过来。 node : source_node示例如下,编译后bar节点…

一文详解扩散模型

文章目录 1、常见的生成模型2、变分推断简介3、文生图的评价指标4、Diffusion Models5、其他技术交流群精选 节前,我们星球组织了一场算法岗技术&面试讨论会,邀请了一些互联网大厂朋友、参加社招和校招面试的同学。 针对算法岗技术趋势、大模型落地…

网络校时服务器:铁路对时有妙招

在信息高速发展的今天,铁路作为国家的经济大动脉,与广大市民生活息息相关,担负着运送大流量乘客、保证交通畅通的重任,为了保证列车的正点运行和乘客的行程,对时间精准度的要求是非常严格的。随着我国铁路的发展速度和…

[AIGC] python遍历以及字符串的切片

以下是一篇关于Python遍历方法和字符串切片的文章,以及一个在LeetCode中的问题进行解释。文章最后会给出解题思路和代码实现。 Python遍历方法与字符串切片入门教程 在Python语言中,我们包含了许多内置的函数和方法令其适合于各种数据处理任务。在这个…

初始化三板斧 - centos7

1、关闭防火墙、关闭SELinux ① 立即关闭防火墙 systemctl stop firewalld ② 设置开机关闭防火墙 systemctl disable firewalld ③ 立即关闭SELinxu setenforce 0 ④ 设置开机关闭SELinux 将SELINUXenforcing 修改替换为 SELINUXdisabled vim /etc/selinux/config se…

java程序监控linux服务器硬件,cpu、mem、disk等

实现 使用Oshi和Hutool工具包1、pom依赖<dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-web</artifactId></dependency><dependency><groupId>com.github.oshi</groupId>&l…

【Oracle篇】rman时间点异机恢复:从RAC环境到单机测试环境的转移(第六篇,总共八篇)

&#x1f4ab;《博主介绍》&#xff1a;✨又是一天没白过&#xff0c;我是奈斯&#xff0c;DBA一名✨ &#x1f4ab;《擅长领域》&#xff1a;✌️擅长Oracle、MySQL、SQLserver、阿里云AnalyticDB for MySQL(分布式数据仓库)、Linux&#xff0c;也在扩展大数据方向的知识面✌️…

龙芯LS2K0300久久派上手体验

介绍 芯片 龙芯2K0300芯片是一款基于LA264处理器核的多功能SoC芯片&#xff0c;可广泛适用于工业控制、通信设备、信息家电和物联网等领域&#xff1b;该芯片采用高集成度设计&#xff0c;可提供丰富的功能接口&#xff0c;满足多场景应用需求&#xff0c;同时支持低功耗技术…

AMBA-CHI协议详解(四)

《AMBA 5 CHI Architecture Specification》 AMBA-CHI协议详解&#xff08;一&#xff09; AMBA-CHI协议详解&#xff08;二&#xff09; AMBA-CHI协议详解&#xff08;三&#xff09; AMBA-CHI协议详解&#xff08;四&#xff09; 文章目录 2.3.3 Atomic transactions2.3.4 S…

【IPython的使用技巧】

&#x1f3a5;博主&#xff1a;程序员不想YY啊 &#x1f4ab;CSDN优质创作者&#xff0c;CSDN实力新星&#xff0c;CSDN博客专家 &#x1f917;点赞&#x1f388;收藏⭐再看&#x1f4ab;养成习惯 ✨希望本文对您有所裨益&#xff0c;如有不足之处&#xff0c;欢迎在评论区提出…

Java 读取Excel导入数据库,形成树状结构

最近开发过程中遇到一个Excel的导入的功能&#xff0c;因为导入的数据结构具有层次结构&#xff0c;经过一番研究&#xff0c;最终得以实现&#xff0c;所有写下该文章&#xff0c;记录过程&#xff0c;供以后参考。 下图是导入Excel的数据结构&#xff1a; 使用POI解析Excel&…

被拷打已老实!面试官问我 #{} 和 ${} 的区别是什么?

引言&#xff1a;在使用 MyBatis 进行数据库操作时&#xff0c;#{} 和 ${} 的区别是面试中常见的问题&#xff0c;对理解如何在 MyBatis 中安全有效地处理 SQL 语句至关重要。正确使用这两种占位符不仅影响应用的安全性&#xff0c;还涉及到性能优化。 题目 被拷打已老实&…

浅谈RC4

一、什么叫RC4&#xff1f;优点和缺点 RC4是对称密码&#xff08;加密解密使用同一个密钥&#xff09;算法中的流密码&#xff08;一个字节一个字节的进行加密&#xff09;加密算法。 优点&#xff1a;简单、灵活、作用范围广&#xff0c;速度快 缺点&#xff1a;安全性能较差&…

操作系统真象还原:输入输出系统

第10章-输入输出系统 这是一个网站有所有小节的代码实现&#xff0c;同时也包含了Bochs等文件 10.1 同步机制–锁 10.1.1 排查GP异常&#xff0c;理解原子操作 线程调度工作的核心内容就是线程的上下文保护&#xff0b;上下文恢复 。 根本原因是访问公共资源需要多个操作&…

超级数据查看器 教程pdf 1-31集 百度网盘

百度网盘链接 提取码1234https://pan.baidu.com/s/1s_2lbwZ2_Su83vDElv76ag?pwd1234 通过百度网盘分享的文件&#xff1a;超级数据查看器 … 链接:https://pan.baidu.com/s/1s_2lbwZ2_Su83vDElv76ag?pwd1234 提取码:1234 复制这段内容打开「百度网盘APP 即可获取」

Python接口测试实战之搭建自动化测试框架

&#x1f345; 视频学习&#xff1a;文末有免费的配套视频可观看 &#x1f345; 点击文末小卡片&#xff0c;免费获取软件测试全套资料&#xff0c;资料在手&#xff0c;涨薪更快 一.数据分离:从Excel中读取数据 之前的用例中&#xff0c;数据直接写在代码文件里&#xff0c;不…