【机器学习西瓜书学习笔记——半监督学习】

机器学习西瓜书学习笔记【第十三章】

  • 第十三章 半监督学习
    • 13.1 未标记样本
    • 13.2 生成式方法
    • 13.3 半监督 S V M SVM SVM
      • 基本思想
      • 优点和注意事项
      • 适用场景
    • 13.4 图半监督
      • 标签传播算法
      • 多类标签传播算法
        • Label Propagation
        • Label Spreading
    • 13.5 基于分歧的方法
      • 数据视图
      • 协同训练
    • 13.6 半监督聚类
      • 基本思想
      • 常见的半监督聚类方法
      • 优点和注意事项

第十三章 半监督学习

机器学习中基本的学习方法有:监督学习半监督学习无监督学习。他们最大的区别就是模型在训练时需要人工标注的标签信息监督学习利用大量的标注数据来训练模型,使模型最终学习到输入和输出标签之间的相关性半监督学习利用少量有标签的数据和大量无标签的数据来训练网络;而无监督学习不依赖任何标签值,通过对数据内在特征的挖掘找到样本间的关系,比如聚类。

13.1 未标记样本

归纳半监督学习假定训练数据中的未标记样本并非待测的数据,而直推半监督学习则假定学习过程中所考虑的未标记样本恰是待预测数据,学习的目的就是在这些未标记样本上获得最优泛化性能。

半监督学习可划分为半监督学习和直推学习。

  • 纯半监督学习

    • 基于"开放世界" 假设, 希望学得模型能适用千训练过程中未观察到的数据。
  • 直推半监督学习

    • 基于"封闭世界"仅试图对学习过程中观察到的未标记数据进行预测。直推半监督学习只处理样本空间内给定的训练数据,利用训练数据中有类标签的样本和无类标签的样例进行训练,预测训练数据中无类标签的样例的类标签。
    img

13.2 生成式方法

基于生成式模型的方法,假设所有数据都是由同一个潜在的模型生成的,这个假设使得我们能通过潜在模型的参数将未标记数据与学习目标联系起来,而未标记数据的标记则可看作模型的缺失参数,通常可基于 E M EM EM算法进行极大似然估计求解。

13.3 半监督 S V M SVM SVM

基本思想

①针对二分类问题

②尝试将每个未标记样本分别作为正例或反例,然后在所有这些结果中, 寻求一个在所有样本(包括有标记样本和进行了标记指派的未标记样本)上间隔最大化的划分超平面。 一旦划分超平面得以确定,未标记样本的最终标记指派就是其预测结果

优点和注意事项

  • 利用未标签数据: S 3 V M S3VM S3VM有效地利用未标签的数据,提高了模型的泛化性能。

  • 降低标签依赖: S 3 V M S3VM S3VM的目标是在减少对标签的依赖性的同时,提高分类性能。

  • 过拟合风险: 引入未标签样本可能会增加过拟合的风险,因此需要注意模型的泛化能力。

  • 参数调整: 如同传统 S V M SVM SVM一样, S 3 V M S3VM S3VM的性能可能受到核函数选择、正则化参数等超参数的影响,需要进行调优。

适用场景

半监督支持向量机它尝试在训练数据中利用未标签样本,以提高分类性能。当标签数据有限的情况下, S 3 V M S3VM S3VM可以作为一种有效的选择。

13.4 图半监督

标签传播算法

给定一个数据集,可以将其映射为一个图,数据集中每个样本对应于图中的一个结点。若两个样本之间的相似度很高(或者相关性很强),则对应的结点之间存在一条边边的强度正比于样本之间的相似度(或相关性)。将有标记样本所对应的结点视作为已经染色,而未标记样本所对应的结点尚未染色。于是半监督学习就对应于“颜色”在图上扩散或者传播的过程。

多类标签传播算法

Label Propagation

Label Propagation算法通过节点之间的边来传播标记,边的权重越大则表示两个节点越相似,则标记越容易传播。

Label Spreading

Label Spreading算法使用了标准化的拉普拉斯矩阵来作为概率转移矩阵;加入了类似于正则化策略的惩罚参数来增加模型的泛化能力。算法思想:距离相近的样本点更有可能具有相同的标签。通过构建有向完全图来表示样本点之间的位置关系,并基于此构建概率转移矩阵来确定未知标签的所属类别。该算法适用于半监督学习任务,可以有效地扩展标记数据集并提高预测准确性。

13.5 基于分歧的方法

数据视图

一个数据对象往往同时拥有多个属性集,每个属性集就构成了一个视图。

假设不同视图具有相容性:即其所包含的关于输出空间的信息是一致的。

协同训练

  • 假设不同视图具有“相容性”,即所包含的关于输出空间 Y Y Y的信息是一致的。在“相容性”基础上,不同视图信息的“互补性”会给学习器的构建带来很大便利。

  • 协同训练正是很好地利用了多视图的“相容互补性”。假设数据拥有两个充分且条件独立的视图,“充分”是指每个视图都包含足以产生最优学习器的信息“条件独立”则是指在给的类别标记条件下两个视图相互独立。

  • 算法流程

    img

13.6 半监督聚类

半监督聚类是一种集成了有标签数据和无标签数据的聚类方法,其目标是在聚类的过程中利用有标签数据的信息来提高聚类性能。在半监督聚类中,一部分数据集有已知的标签,而另一部分没有标签。

基本思想

  • 有标签数据: 利用有标签的数据对聚类过程进行监督或指导,以提高聚类的准确性。
  • 无标签数据: 利用无标签的数据进行聚类,从中发现潜在的簇结构。

常见的半监督聚类方法

  • C o n s t r a i n e d C l u s t e r i n g Constrained Clustering ConstrainedClustering: 在这种方法中,用户提供一些先验的约束条件,如样本之间属于同一类或不属于同一类,以引导聚类过程。
  • S e l f − t r a i n i n g Self-training Selftraining: 利用已有的有标签数据来初始化聚类模型,然后使用无标签数据进行训练,逐渐将无标签数据加入到已有的聚类中。
  • C o − T r a i n i n g Co-Training CoTraining: 在半监督聚类中, C o − T r a i n i n g Co-Training CoTraining方法使用两个或多个视图或特征集,每个特征集对应一个模型。模型在一个视图上训练,然后通过对另一个视图上的数据进行预测来自我训练。
  • S p e c t r a l M e t h o d s Spectral Methods SpectralMethods: 基于谱聚类的方法也可以用于半监督聚类。通过考虑已标签和未标签数据之间的关系,可以在谱聚类中引入先验信息。
  • G e n e r a t i v e M o d e l s Generative Models GenerativeModels: 一些生成模型,如深度生成对抗网络( G A N s GANs GANs)或变分自编码器( V A E s VAEs VAEs),也可以用于半监督聚类,通过同时考虑有标签和无标签数据进行训练。

优点和注意事项

  • 更充分利用数据: 半监督聚类充分利用了有标签和无标签数据,提高了聚类性能。
  • 对领域知识的整合: 可以结合领域知识,通过约束或先验信息提高聚类的准确性。
  • 依赖标签质量: 结果的质量依赖于有标签数据的质量,不准确的标签可能影响聚类效果。
  • 选择合适的方法: 不同的半监督聚类方法适用于不同的场景,需要根据具体问题选择合适的方法。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/402509.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

CI/CD 自动化:最大限度地提高极狐GitLab 群组的“部署冻结”影响

极狐GitLab 是 GitLab 在中国的发行版,专门面向中国程序员和企业提供企业级一体化 DevOps 平台,用来帮助用户实现需求管理、源代码托管、CI/CD、安全合规,而且所有的操作都是在一个平台上进行,省事省心省钱。可以一键安装极狐GitL…

基于LangChain手工测试用例转接口自动化测试生成工具!

接口自动化测试用例是一个老生常谈的问题,在未引入人工智能之前,也有非常多的生成方案,比如如下所示,通过har生成接口自动化测试用例: 但是以上的生成方式依然是有一些弊端,比如 har 本身虽然能表述一定的接…

SqlSugar详解-国产ORM框架

ORM (Object-Relational Mapping) 概念 ORM 是一种程序技术,用于将关系型数据库中的数据映射到对象上。 主要目的是简化数据库操作,使得开发人员可以像操作对象一样来操作数据库。 原理 数据表与类的映射:数据库中的表对应为类。 记录与对象…

C++竞赛初阶L1-11-第五单元-for循环(25~26课)524: T454437 幂的末尾

题目内容 幂 ab 的末 3 位数是多少? 输入格式 两个正整数 a,b。1≤a≤100,1≤b≤10000。 输出格式 从高位到低位输出幂的末三位数字,中间无分隔符。若幂本身不足三位,在前面补零。 样例 1 输入 2 3 样例 2 输入…

django常用的组合搜索组件

文章目录 django常用的组合搜索组件快速使用配置信息1. 视图函数2. 前端模板3. css样式 代码实现 django常用的组合搜索组件 在项目开发中,如果有大量数据就要用到组合搜索,通过组合搜索对大块内容进行分类筛选。 快速使用 三步走:&#xf…

智慧社区新视界:EasyCVR视频汇聚平台下的数字化治理实践

在当今科技飞速发展的时代,“数字城市智慧社区”这个概念正逐渐走进我们的生活。那么,数字城市智慧社区到底是什么样子的呢? 随着城市化的不断推进,数字城市建设已成为提升城市管理效率、改善居民生活质量的重要手段。智慧社区作…

软件工程概述(上)

1、软件的概念、特点和分类 要了解软件工程,首先让我们重新认识一下软件。如今可以说是一个软件定义一切的时代,虽然人工智能发展的如火如荼,但究其本质,核心还是软件。那么,如何给软件下一个定义呢?软件又…

B站搜索建库架构优化实践

前言 搜索是B站的重要基础功能,需要对包括视频、评论、图文等海量的站内优质资源建立索引,处理来自用户每日数亿的检索请求。离线索引数据的正确、高效产出是搜索业务的基础。我们在这里分享搜索离线架构整体的改造实践:从周期长,…

Transformer架构;Encoder-Decoder;Padding Mask;Sequence Mask;

目录 Transformer架构 Transformer架构的主要组成部分: 简单举例说明输入和输出: Encoder-Decoder 编码器/解码器组成 6、位置前馈网络(Position-wise Feed-Forward Networks) 7、残差连接和层归一化 10、掩码Mask 10.1 Padding Mask 10.2 Sequence Mask 为什么…

二.PhotoKit - 相册权限(彻底读懂权限管理)

引言 用户的照片和视频算是用户最私密的数据之一,由于内置的隐私保护功能,APP只有在用户明确授权的前提下才能访问用户的照片库。从iOS14 开始,PhotoKit进一步增强了用户的隐私控制,用户可以选择指定的照片或者视频资源的访问权限…

java 面试 PDF 资料整理

“尊贵的求知者,作者特此献上精心编纂的Java面试宝典PDF,这份资料凝聚了无数面试精华与实战经验,是通往Java技术殿堂的钥匙。若您渴望在Java编程的求职之路上稳健前行,只需轻轻一点,完成这象征支持与认可的一键三联&am…

解决麒麟 V10 SP1 升级 Python 后 Yum 不可用问题

目录 一、前提概要 二、解决办法 1、卸载原有的 python 2、安装 Python 3.7.9 rpm 3、安装一系列 yum 相关 rpm 4、rpm 包下载 一、前提概要 在部署 gaussDB 的时候,安装代理时要求 python 版本满足 3.7.9,但已安装的麒麟 V10 内集成的 python 版…

docker安装es8和kibana

es8、kibana安装、ik分词器使用 1 拉取镜像2 创建网络3 安装ES3.1 启动临时的ES3.2 运行es3.3 修改用户密码 4 安装kibana4.1 启动临时的kibana4.2 修改配置文件4.3 重启创建并启动kibana容器4.4 调用5601端口(我映射的是8082) 5 安装ik分词器&#xff0…

Linux学习——文本处理工具与正则表达式

目录 一,grep 1,grep介绍 2,grep的常用选项 3,grep使用演示 1,基本使用 直接查找字符串: 使用选项 2,使用正则表达式进行匹配 1,正则表达式介绍 2,使用范例 二&…

servlet的执行顺序

执行的时候Tomcat先初始化 然后调用 server 根据server来回调请求方式下面会追入源码解释 package com.haogu.servlet;import javax.servlet.ServletConfig; import javax.servlet.ServletException; import javax.servlet.annotation.WebServlet; import javax.servlet.http.…

Zookeeper的在Ubuntu20.04上的集群部署

安装资源 官方安装包下载地址:https://zookeeper.apache.org/releases.html 懒得找版本的可以移步下载zookeeper3.84稳定版本: https://download.csdn.net/download/qq_43439214/89646735 安装方法 创建安装路径&&解压安装包 # 创建路径 m…

STM32总线和时钟树(速记版)

一、存储器结构 1.1 STM32内存结构 型号说明 以STM32F103RBT6这个型号的芯片为例,该型号的组成为7个部分,其命名规则如下: ST 是公司名,意法半导体。M 代表Cortex-M内核。32 代表32位微控制器。 F103 是芯片系列。 R 代表引脚数…

Excel求和方法之

一 SUM(),选择要相加的数,回车即可 二 上面的方法还不够快。用下面这个 就成功了 三 还有一种一样快的 选中之后,按下Alt键和键(即Alt)

直流屏监控模块ACT-J04触摸屏ACT-J05控制器的应用

直流屏监控模块ACT-J04触摸屏ACT-J05控制器的应用,电力智能监控系统ACT-J03,ACT-J02,ACT-J06,高频开关电源模块M1B10,M1A10,M1B10L,M1B20,M1B10L-2,MK1B10L,M…

Hive:大数据时代的SQL魔法师

时间:2024年08月17日 作者:小蒋聊技术 邮箱:wei_wei10163.com 微信:wei_wei10 音频地址:https://xima.tv/1_ZRh54d?_sonic0 希望大家帮个忙!如果大家有工作机会,希望帮小蒋内推一下&#x…