机器学习——有监督学习和无监督学习

有监督学习

简单来说,就是人教会计算机学会做一件事。

给算法一个数据集,其中数据集中包含了正确答案,根据这个数据集,可以对额外的数据希望得到一个正确判断(详见下面的例子)

回归问题

例如现在有一个房价数据集,记录了不同面积的房子的实际卖价, 现在用图表表示数据集,横轴表示房子面积,纵轴表示房子的卖价, 图画出来后,可以用一个直线或者曲线去拟合(至于选择直线还是曲线,要看具体的衡量标准),然后现在有一个需求,就是我有一个x平方的房子,想要知道这个房子的卖价, 此时就可以通过在横轴的x位置,找到直线或曲线上对应的纵轴的值y,就可以得到预估卖价。

这个房价问题是个回归问题,回归问题是指:我们想要预测连续的数据输出,即预测的结果是一个连续值,如这里房子卖出的价格就是一个连续值,还有一种类型是分类问题(详见下面),以二分类问题为例,对于某一个样本,它的结果只有两种可能:对或错, 而我们预测某个数据的结果,要么是对要么是错,也就是说结果是离散的 那么对比之下,我们预测某个面积的房子的卖价,卖价可能是一个范围里的任何数字,也就是连续的, 所以回归问题就是某个数据的结果是连续的,不是像分类问题的结果是离散的。

分类问题

例如现在有一组数据集,是不同的肿瘤大小对应它是否是恶性肿瘤(结果只有两种:是或否),现在需要预测肿瘤大小为x的肿瘤,是否是恶性肿瘤,预测的结果为y(是或否),这就是个二分类问题,即答案只有两种。除此之外,还有多分类问题,也就是答案不止两种(但也是有限种类)。

在判断肿瘤是否是恶性的这个问题上,我们判断的标准只有肿瘤大小这一个特征/属性, 而实际中,可能会根据多个特征/属性进行综合判断进而得到结果,上面的房价问题也是如此,我们只根据房屋面积这一个特征进行估价,而实际上肯定还会结合地段、交通等多个特征进行判断。如下面的数据集是根据肿瘤大小和患者年龄两个特征来判断肿瘤的性质。

无监督学习

简单来说,就是让计算机在不用人教的情况下自己学会做一件事

在上述的监督学习中,房价问题中的数据集的每个样本都清楚的知道了它的卖价,在肿瘤问题中的数据集中,每个样本也都被表明为是恶性还是良性。由此可见,在有监督学习中,对于数据集的每个样本,我们都清楚的告知了的正确答案(如肿瘤是恶性还是良性)。

而在无监督学习中,我们给算法一个数据集,不告诉算法这个数据集的每个数据点代表什么,要求算法找出数据的类型结构。

例如,给定一组不同的个体,对于每个个体,检测他们是否拥有某个特定的基因,具体做法就是,运行一个聚类算法,根据个体所拥有的基因把不同的个体归为不同类型的人,这就是无监督学习。因为在给定这些个体时,即给定数据集时,没有事先告知每个个体的类型,只是告诉算法,这里有一堆数据。我不知道这些数据是什么,不知道每个数据的类型,甚至不知道总共有哪些类型,你能自动找出这些数据的结构吗?虽然我事先不知道有哪些类型,但你能按得到的类型把这些个体进行分类吗?因为我们没有把数据集中的正确答案(即每个个体属于什么类型的人)告诉算法,所以这就是无监督学习。

聚类算法

聚类算法是无监督学习算法中的一种,对于给定的数据集,无监督学习算法可能判定数据集包含两个不同的簇,然后把这些数据分为两个不同的簇,这就是聚类算法。

聚类算法的应用举例

  • 市场细分。根据客户信息将客户分为不同的市场群体,进而进行精准销售。我们只拥有全部客户的信息,但是并不知道有哪些市场细分,也不知道某个客户属于哪种市场细分,所以让算法自己从数据中去发现这些
  • 社交网络的分析。可以得知和你联系最频繁的人,判断哪些人可能相互认知等。
  • 新闻分类。将几万条甚至更多的新闻组成不同的新闻专题

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/253827.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

17:定时器编程实战

1、实验目的 (1)使用定时器来完成LED闪烁 (2)原来实现闪烁时中间的延迟是用delay函数实现的,在delay的过程中CPU要一直耗在这里不能去做别的事情。这是之前的缺点 (3)本节用定时器来定一个时间(譬如0.3s),在这个定时器定时时间内…

Visual Studio 2022中创建的C++项目无法使用万能头<bits/stdc++.h>解决方案

目录 发现问题 解决办法 第一步 第二步 第三步 第四步 最后一步 问题解决 发现问题 如果大家也遇到下面这种问题,可能是没有include文件夹中没有bits/stdc.h 解决办法 第一步 打开一个C项目,鼠标移动至头文件上右击,选择转到文档或…

嵌入式学习之Linux入门篇笔记——10,Linux连接档概念

配套视频学习链接:http://【【北京迅为】嵌入式学习之Linux入门篇】 https://www.bilibili.com/video/BV1M7411m7wT/?p4&share_sourcecopy_web&vd_sourcea0ef2c4953d33a9260910aaea45eaec8 目录 1.Linux 下的连接档种类 2.什么是 inode? 3.什…

【HarmonyOS应用开发】HTTP数据请求(十四)

文章末尾含相关内容源代码 一、概述 日常生活中我们使用应用程序看新闻、发送消息等,都需要连接到互联网,从服务端获取数据。例如,新闻应用可以从新闻服务器中获取最新的热点新闻,从而给用户打造更加丰富、更加实用的体验。 那么…

支持534种语言,开源大语言模型MaLA-500

无论是开源的LLaMA 2还是闭源的GPT系列模型,功能虽然很强大,但对语言的支持和扩展比较差,例如,二者都是以英语为主的大模型。 为了提升大模型语言的多元化,慕尼黑大学、赫尔辛基大学等研究人员联合开源了,…

Windows 安装 MySQL 最新最简教程

Windows 安装 MySQL 最新最简教程 官网地址 https://dev.mysql.com/downloads/mysql/下载 MySQL zip 文件 配置 MySQL1、解压文件 2、进入 bin 目录 搜索栏输入 cmd 回车进入命令行 C:\Users\zhong\Desktop\MySQL\mysql-8.3.0-winx64\mysql-8.3.0-winx64\bin 注意这里是你自己…

Java图形化界面编程——Container容器 笔记

2.3 Container容器 2.3.1 Container继承体系 Winow是可以独立存在的顶级窗口,默认使用BorderLayout管理其内部组件布局;Panel可以容纳其他组件,但不能独立存在,它必须内嵌其他容器中使用,默认使用FlowLayout管理其内部组件布局;S…

物理信息神经网络(PINN): 将物理知识融合到深度学习中

物理信息神经网络(PINN): 将物理知识融合到深度学习中 物理信息神经网络(PINN)简介PINN的工作原理PINN模型如何利用物理法则指导模型训练1. 定义物理问题和相应的物理定律2. 构建神经网络3. 定义损失函数数据误差项 (Data-fidelit…

Flask 入门6:模板继承

1. 一个网站中,大部分网页的模块是重复的,比如顶部的导航栏,底部的备案信息。如果在每个页面中都重复的去写这些代码,会让项目变得臃肿,提高后期的维护成本。比较好的做法是,通过模板继承,把一…

Netty中使用编解码器框架

目录 什么是编解码器? 解码器 将字节解码为消息 将一种消息类型解码为另一种 TooLongFrameException 编码器 将消息编码为字节 将消息编码为消息 编解码器类 通过http协议实现SSL/TLS和Web服务 什么是编解码器? 每个网络应用程序都必须定义如何…

解决CORS错误(Spring Boot)

记录一下错误,以博客的形式 前言 跨域(Cross-Origin)是指在Web开发中,当一个Web应用试图从一个源(域名、协议、端口组合)获取资源时,该请求的目标与当前页面的源不同。具体来说,当一…

25、数据结构/二叉树相关练习20240207

一、二叉树相关练习 请编程实现二叉树的操作 1.二叉树的创建 2.二叉树的先序遍历 3.二叉树的中序遍历 4.二叉树的后序遍历 5.二叉树各个节点度的个数 6.二叉树的深度 代码&#xff1a; #include<stdlib.h> #include<string.h> #include<stdio.h> ty…

SolidWorks学习笔记——入门知识2

目录 建出第一个模型 1、建立草图 2、选取中心线 3、草图绘制 4、拉伸 特征的显示与隐藏 改变特征名称 5、外观 6、渲染 建出第一个模型 1、建立草图 图1 建立草图 按需要选择基准面。 2、选取中心线 图2 选取中心线 3、草图绘制 以对称图形举例&#xff0c;先画出…

蓝桥杯---生日蜡烛

某君从某年开始每年都举办一次生日party&#xff0c;并且每次都要吹熄与年龄相同根数的蜡烛&#xff0c;现在算起来&#xff0c;他一共吹熄了236根蜡烛。请问,他从多少岁开始过生日party的? 请填写他开始过生日 party的年龄数。 注意:你提交的应该是一个整数&#xff0c;不要…

路由器如何映射端口映射?

在现代互联网中&#xff0c;随着网络应用的不断发展&#xff0c;很多用户需要进行远程访问或搭建服务器来满足自己的需求。由于网络安全的原因&#xff0c;直接将内网设备暴露在公网中是非常危险的。为了解决这个问题&#xff0c;路由器映射端口映射技术应运而生。本文将介绍什…

redis之布隆过滤

目录 1、redis之布隆过滤 2、布隆过滤器原理 3、布隆过滤器使用步骤 初始化bitmap 添加占坑位 判断是否存在圜 1、redis之布隆过滤 布隆过滤&#xff1a;有一个初值都为0的bit数组和多个哈希函数构成&#xff0c;用来快速判断集合中是否存在某个元素。目的&#xff1a;减…

新型RedAlert勒索病毒针对VMWare ESXi服务器

前言 RedAlert勒索病毒又称为N13V勒索病毒&#xff0c;是一款2022年新型的勒索病毒&#xff0c;最早于2022年7月被首次曝光&#xff0c;主要针对Windows和Linux VMWare ESXi服务器进行加密攻击&#xff0c;到目前为止该勒索病毒黑客组织在其暗网网站上公布了一名受害者&#x…

2024年:用OKR管理你的生活

在科技高速发展的时代&#xff0c;越来越多的企业和团队开始采用OKR&#xff08;Objectives and Key Results&#xff09;管理方法来设定目标并跟踪进度。你是否想过&#xff0c;将OKR理念引入个人生活&#xff0c;以更有效地实现人生目标&#xff1f;本文将探讨如何在2024年运…

国产三维剖面仪—MPAS-100相控参量阵浅地层剖面仪

最近声学所东海站邹博士发来了他们最新的浅地层剖面仪—MPAS-100相控参量阵浅地层剖面仪的资料&#xff0c;市场型号GeoInsight&#xff0c;委托Ocean Physics Technology公司销售&#xff0c;地大李师兄的公司负责技术支持。 MPAS-100相控参量阵浅地层剖面仪就是俗称的三维浅…

『运维备忘录』之 Ansible 自动化运维工具

一、简介 Ansible是基于Python开发&#xff0c;集合了众多运维工具&#xff08;puppet、cfengine、chef、func、fabric&#xff09;的优点&#xff0c;实现了批量系统配置、批量程序部署、批量运行命令等功能的自动化运维工具&#xff0c;广泛用于配置管理、应用部署以及任务协…