【机器学习 复习】 第1章 概述

一、概念

1.机器学习是一种通过先验信息来提升模型能力的方式。    

从数据中产生“模型”( model )的算法,然后对新的数据集进行预测。

2.数据集(Dataset):所有数据的集合称为数据集。

训练集:用来训练出一个适合模型的,相当于人预习用的数据集。

验证集:相当于游戏的内测玩家。

测试集:用来测试训练的模型对不对的数据集。

3.样本(Sample):数据集中 每条记录 称为样本。

4.属性(Attribute)或特征(Feature):每个样本 在某方面 的 表现或性质。

5.特征向量(Feature Vector):每个样本的特征 对应的特征空间中的一个坐标向量。

6.分类(Classification):使用计算机学习出的模型进行预测得到的是离散值。

(1)人话:你是人,他是狗。

(2)有二分类和多分类之分。

7.回归(Regression):使用计算机学习出的模型进行预测得到的是连续值

8.聚类(Clustering):对无标签样本的相似度进行度量,挖掘特征、结构、内在性质,使类内相似度大,类间相似度小。

(1)人话:物以类聚,一样的放一块。

(2)与分类的区别:

a.分类是有监督,聚类是无监督(更diao)

b.聚类只要求相似度高的放一块,而分类则要求分到预定义的类别或标签。

9.输出结果(预测值)与其对应的真实值之间往往会存在一定的差异,这种差异被称为模型的输出误差,简称为误差。

(1)人话:误差=预测值-真实值 (正负先不管)

(2)分三种:

a.训练误差或称经验风险——指模型在训练样本集上的整体误差

b.测试误差——模型在测试样本集上的整体误差

c.泛化误差——测试集的泛化能力,泛化就是举一反三,就是白人是人,黑人也是人。

10.泛化能力:

(1)过拟合:就是过度拟合,猿猴不是人,但是非得说是人。

(2)欠拟合:就是不拟合,黑人是人,但是非得说黑人不算人。

11.机器学习的分类

(1)监督学习:人为干涉让模型更完美

分类:逻辑回归、决策树、KNN、随机森林、支持向量机、朴素贝叶斯

数字预测:线性回归、KNN、梯度提升(Gradient Boosting)、迭代算法(AbaBoost)

(2)非监督式学习:不管机器,让他自己来

典型例子:聚类算法

(3)半监督学习:人为干涉一点点,大部分让机器来,这是三者中最晚诞生的,自己掂量掂量。

(4)强化学习:与环境建立联系,然后各个动作产生的结果进行反馈(奖励或惩罚)。

12.机器学习的步骤:

数据收集+预处理(数据清洗)—— 特征选择+模型构建 —— 评估+测试

(1)模型构建的相关过程:

a. 建立训练数据集和测试数据集,通常80%为训练数据集。

b. 选择机器学习算法

c. 模型调优

d. 模型融合

二、习题

单选题:

1.构建一个完整的机器学习算法需要三个方面的要素,分别是数据、模型和()。

A、评估 B、验证  C、训练和验证 D、性能度量准则

3. 以下属于典型的监督学习的是(C )

A、聚类  B、关联分析  C、分类  D、降维

4. (A  )是指机器学习算法对新鲜样本的适应能力。

A、泛化能力  B、测试能力  C、识别能力  D、训练能力

5. 欠拟合是指(C )

A、在训练集表现非常好,但在测试集上表现很差

B、在训练集表现非常好,但在测试集上表现也非常好

C、在训练集表现非常差,但在测试集上表现很差

D、在训练集表现非常差,但在测试集上表现非常好

6. 如果我使用训练集的全部特征并且能够达到100%的准确率,但在测试集上仅能达到70%左右,这说明(B )

A、欠拟合  B、过拟合  C、模型很棒  D、模型不确定

18. 以下属于典型的无监督学习的是(C )

A、支持向量机

B、k-近邻算法

C、降维

D、逻辑回归

19. 下列关于过拟合的说法错误的是(   )。

A、模型的训练误差比较高,则称此分类模型过拟合。

B、可以通过选取具有代表性样本的训练样本集来解决过拟合问题。

C、模型的训练误差低但是泛化误差比较高,则称此分类模型过拟合。

D、可以通过预剪枝,避免决策树规模过大产生过拟合。

多选题:

1. 根据样本集合中是否包含标签以及半包含标签的多少,可以将机器学习分为(ABD )

A、监督学习  B、无监督学习  C、迁移学习  D、半监督学习

2. 以下属于解决模型过拟合的方法的是(ABD )

A、增加训练数据量  B、对模型进行裁剪  C、增加训练过程的迭代次数  D、正则化

3. 聚类的宗旨是(BD )

A、类内距离最大化 B、类间距离最大化 C、 类间距离最小化 D、类内距离最小化

6. 机器学习中,通常将数据集划分为(ABC  )

A、训练集    B、验证集   C、测试集    D、对照集

判断题:

1. 根据模型预测输出的连续性,可以将机器学习算法适配的问题划分为分类问题和线性问题。(F )

答:回归

2. 降维、聚类是无监督学习算法。(

3. 当我们说模型训练结果过拟合的时候,意思是模型的泛化能力很F )

答:弱

4. 训练误差和泛化误差之间的差异越小,说明模型的泛化性能越好。(T )

17. 特征提取是指对现有特征进行重新组合产生新的特征,例如相对于年龄,出生年月就是冗余特征。(F )

答:从原始数据中抽取出新的特征

19. 聚类的目的是对样本集合进行自动分类,以发掘数据中隐藏的信息、结构,从而发现可能的商业价值。 ()       

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/356341.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【分布式系列】分布式锁timeout了怎么办?

💝💝💝欢迎来到我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:kwan 的首页,持续学…

ffmpeg windows系统详细教程

视频做预览时黑屏,但有声音问题解决方案。 需要将 .mp4编成H.264格式的.mp4 一般上传视频的站点,如YouTube、Vimeo 等,通常会在用户上传视频时自动对视频进行转码,以确保视频能够在各种设备和网络条件下流畅播放。这些网站通常…

【尚庭公寓SpringBoot + Vue 项目实战】预约看房与租约管理(完结)

【尚庭公寓SpringBoot Vue 项目实战】预约看房与租约管理(完结) 文章目录 【尚庭公寓SpringBoot Vue 项目实战】预约看房与租约管理(完结)1、业务说明2、接口开发2.1、预约看房管理2.1.1.保存或更新看房预约2.1.2. 查询个人预约…

【Java】已解决java.io.InterruptedIOException异常

文章目录 一、分析问题背景二、可能出错的原因三、错误代码示例四、正确代码示例五、注意事项 已解决java.io.InterruptedIOException异常 在Java中,java.io.InterruptedIOException异常通常与I/O操作被中断有关。这种中断可能由多种因素引起,如线程被中…

Palo Alto GlobalProtect App 6.3 (macOS, Linux, Windows, Andriod) - 端点网络安全客户端

Palo Alto GlobalProtect App 6.3 (macOS, Linux, Windows, Andriod) - 端点网络安全客户端 Palo Alto Networks 远程访问 VPN 客户端软件 请访问原文链接:https://sysin.org/blog/globalprotect-6/,查看最新版。原创作品,转载请保留出处。…

本地部署Ollama+qwen本地大语言模型Web交互界面

什么是 Ollama WebUI? Ollama WebUI 已经更名为 Open WebUI. Open WebUI 是一个可扩展、功能丰富且用户友好的自托管 WebUI,旨在完全离线操作。它支持各种 LLM 运行程序,包括 Ollama 和 OpenAI 兼容的 API。 Ollama WebUI 是一个革命性的 L…

python数据分析-糖尿病数据集数据分析预测

一、研究背景和意义 糖尿病是美国最普遍的慢性病之一,每年影响数百万美国人,并对经济造成重大的经济负担。糖尿病是一种严重的慢性疾病,其中个体失去有效调节血液中葡萄糖水平的能力,并可能导致生活质量和预期寿命下降。。。。 …

matlab 路面点云标线提取

目录 一、算法原理二、代码实现三、结果展示四、参考链接本文由CSDN点云侠原创,原文链接。如果你不是在点云侠的博客中看到该文章,那么此处便是不要脸的爬虫与GPT。 一、算法原理 算法来自本人自创。实现效果如下图所示,具体实现原理看代码即可。 二、代码实现 clc; cle…

与Vatee万腾平台同行,共创智能未来

在科技日新月异的今天,智能化已成为推动社会进步的重要力量。Vatee万腾平台,作为这一浪潮中的佼佼者,正以其独特的创新力和前瞻的视野,引领我们迈向智能未来。与Vatee万腾平台同行,我们不仅能享受到科技带来的便捷与舒…

DPDK与传统收发报文的区别

1.去除中断 传统的收发报文方式都必须采用硬中断来做通讯,每次硬中断大约消耗100微秒,这还不算因为终止上下文所带来的Cache Miss。 DPDK采用轮询模式驱动(PMD)。 PMD由用户空间的特定的驱动程序提供的API组成,用于对设备和它们相应的…

Java也能做OCR!SpringBoot 整合 Tess4J 实现图片文字识别

文章目录 1. 环境准备1.1 安装 Tesseract OCR 引擎1.2 引入 Tess4J 依赖 2. 创建 Spring Boot 项目2.1 初始化项目2.2 目录结构 3. 编写 OCR 功能代码3.1 创建服务层3.2 创建控制器层 4. 配置 Tesseract 语言包5. 运行和测试5.1 启动 Spring Boot 应用5.2 使用 Postman 或 cURL…

(三十)Flask之wtforms库【剖析源码上篇】

每篇前言: 🏆🏆作者介绍:【孤寒者】—CSDN全栈领域优质创作者、HDZ核心组成员、华为云享专家Python全栈领域博主、CSDN原力计划作者 🔥🔥本文已收录于Flask框架从入门到实战专栏:《Flask框架从入…

如何用 Google Chrome 浏览器浏览经过 XSLT 渲染的 XML 文件

对于经过XSLT渲染的XML文件,本来,可以直接用 IE (Internet Explorer) 打开,就能看到渲染之后的样子,很方便。但是后来,微软把 IE 换成了 Microsoft Edge,按理说这是比 IE 更先进的浏览器,可是偏…

Stable Diffusion vs DALL·E3

大模型技术论文不断,每个月总会新增上千篇。本专栏精选论文重点解读,主题还是围绕着行业实践和工程量产。若在某个环节出现卡点,可以回到大模型必备腔调或者LLM背后的基础模型新阅读。而最新科技(Mamba,xLSTM,KAN)则提…

CSS详解

盒子模型&#xff08;box-sizing&#xff09; line-height与height CSS选择符和可继承属性 属性选择符&#xff1a; 示例&#xff1a;a[target"_blank"] { text-decoration: none; }&#xff08;选择所有target"_blank"的<a>元素&#xff09; /* 选…

NeRF从入门到放弃3: EmerNeRF

https://github.com/NVlabs/EmerNeRF 该方法是Nvidia提出的&#xff0c;其亮点是不需要额外的2D、3Dbox先验&#xff0c;可以自动解耦动静field。 核心思想&#xff1a; 1. 动、静filed都用hash grid编码&#xff0c;动态filed比静态多了时间t&#xff0c;静态的hash编码输入是…

项目启动 | 盘古信息助力鼎阳科技开启智能制造升级新征程

在全球数字化浪潮不断涌动的背景下&#xff0c;电子信息行业正迎来转型升级的关键阶段。近日&#xff0c;盘古信息与深圳市鼎阳科技股份有限公司&#xff08;简称“鼎阳科技”&#xff0c;股票代码&#xff1a;688112&#xff09;正式启动了IMS数字化智能制造工厂项目&#xff…

windows环境下,怎么查看本机的IP、MAC地址和端口占用情况

1.输入ipconfig,按回车。即查看了IP地址&#xff0c;子码掩码&#xff0c;网关信息。 2.输入ipconfig/all,按回车。即查看了包含IP地址&#xff0c;子码掩码&#xff0c;网关信息以及MAC地址 3.我们有时在启动应用程序的时候提示端口被占用&#xff0c;如何知道谁占有了我们需要…

C#实现卷积平滑(图像处理)

在C#中使用卷积滤波器来实现图像平滑处理&#xff0c;我们可以使用 System.Drawing 库来操作图像。下面是一个具体的示例&#xff0c;演示如何加载图像、应用卷积平滑滤波器&#xff0c;并保存处理后的图像。 1. 安装 System.Drawing.Common 首先&#xff0c;确保你已经安装了…

【Leetcode】2663. 字典序最小的美丽字符串

题目 题目链接&#x1f517;如果一个字符串满足以下条件&#xff0c;则称其为 美丽字符串 &#xff1a; 它由英语小写字母表的前 k 个字母组成。它不包含任何长度为 2 或更长的回文子字符串。 给你一个长度为 n 的美丽字符串 s 和一个正整数 k 。请你找出并返回一个长度为 n…