用于不平衡医疗数据分类的主动SMOTE

一、主动学习如何应用于不平衡数据的处理

        首先,主动SMOTE不是像经典的SMOTE那样从训练集中随机选择一个样本作为生成合成样本的轴心点,而是通过不确定性和多样性采样来智能地进行样本选择,这是主动学习的两种技术。

        在数据不平衡的情况下,可以使用主动学习来平衡训练样本,方法是从多数类中选择最具代表性的实例,从少数类中消除噪声样本,并降低总体不平衡比率。

        主动学习的主要目的是应用动态数据采样来使训练数据沿着训练过程进行进化。主要问题是我们如何选择训练集的样本?什么样的样本会提高算法性能?起初,这个问题听起来可能与不平衡类问题无关。然而,在我们的例子中,问题是:我们首先需要从少数类中选择哪些点来生成合成样本,这样我们才能最终获得良好的模型性能?

        基于主动学习的SMOTE,与传统采样不一样的是,我们如何为训练集选择样本?什么样的样本会提高算法的性能?

        我们需要首先从少数类中选择哪些点来生成合成样本,以便我们最终能够拥有良好的模型性能?为此,我们选择了两种抽样方法:不确定性抽样和多样性抽样。

二、不确定性抽样

不确定性抽样是一组技术,用于识别决策边界附近具有最高不确定性的最低置信度样本,以插入新的训练样本。

测量不确定性的方法有很多,比如最小值、置信度和熵。

三、多样性抽样

它不同于单纯关注存在不确定性的边界样本(如不确定性采样所做的),而是选择彼此不同或差异较大的样本。

这种方法可以帮助识别模型在某些区域的知识盲区,因为这些区域缺乏足够的代表性样本。

相比于只选择靠近决策边界的样本,多样性采样会选择那些与现有训练数据不同的样本。这有助于减少现实世界中的采样偏差,让模型能更好地概括到未知区域。

多样性采样的选择与不确定性采样的选择是不同的。前者选择的样本彼此差异较大,而后者更关注位于决策边界附近的样本。

四、主动SMOTE

主动SMOTE旨在将SMOTE与主动学习相结合。

换句话说,我们不是从训练集中随机选择一个点作为生成合成样本的枢轴点,而是使用不确定性和多样性采样智能地选择点。

实际上,我们可以说新提出的算法有两个主要阶段。不确定性采样阶段和多样性采样阶段。

4.1、不确定性采样阶段

        ①首先,算法会训练一个机器学习模型,使用全部的训练数据。
        ②然后,算法会计算所有少数类样本属于少数类的概率。
        ③接下来,算法会根据某种不确定性度量来计算模型对这些少数类样本的预测不确定性。常用的不确定性度量有:
                置信度边界(Margin):预测概率差值越小,说明模型越不确定。
                熵(Entropy):预测概率分布越均匀,说明模型越不确定。
       ④ 最后,算法会选择一定比例的最不确定的少数类样本,这个比例是一个超参数

4.2、多样性采样阶段

多样性抽样阶段的目的是对所选的最不确定的样本进行多样性抽样。

首先,我们使用K-means将最不确定的项目划分为k个聚类

然后从每个聚类中分层抽样。k簇的数量是一个需要调整的超参数,以及我们将从每个簇中选择的项目数量。我们选择K-means作为聚类方法,因为它是最常用的聚类策略。

创新点:比较其他聚类方法优劣

4.3、算法流程

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/403451.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Ubuntu上安装Redis的详细教程

1、安装redis 首先,访问Redis官网,点击首页的【Get Started】,然后点击Install Redis on Linux 安装 终端依次输入以下命令,如果过程中没有错误提示,则redis安装完成。 sudo apt install lsb-release curl gpg cu…

计算机科学速成课笔记

计算机速成课个人理解概要 1.计算机的本质 计算机的本质:极其简单的组件,经过一层层复杂的抽象,做出复杂的工作 2.控制电流的技术发展 继电器→真空管→晶体管 拥有了细微控制电流的手段 tip:早期机械计算机,被虫子(bug)卡住…

基于SpringCloud的能源管理系统-能源管理平台源码-能源在线监测平台-双碳平台源码-SpringCloud全家桶-能管管理系统源码

介绍 适用于高能耗企业、建筑、工厂、园区的水、电、气、热、油、空压机等能源数据采集、分析、报表; 基于SpringCloud的能源管理系统-能源管理平台源码-能源在线监测平台-双碳平台源码-SpringCloud全家桶-能管管理系统源码 软件架构 软件功能 数字大屏 使用说明

机器学习第十一章-特征选择与稀疏学习

11.1子集收集与评价 属性称为"特征" ,对当前学习任务有用的属性称为"相关特征" 、没什么用的属性称为"无关特 征" . 从给定的特征集合中选择出相关特征于集的过程,称为"特征选择"。 特征选择是一个重要的"…

Linux | Linux进程万字全解:内核原理、进程状态转换、优先级调度策略与环境变量

目录 1、从计算机组成原理到冯诺依曼架构 计算机系统的组成 冯诺依曼体系 思考:为什么计算机不能直接设计为 输入设备-CPU运算-输出设备 的结构? 2、操作系统(Operator System) 概念 设计OS的目的 描述和组织被管理对象 3、进程 基本概念 进程id和父进程…

数据结构入门——07堆

1.堆 堆(Heap)是一种特殊的完全二叉树数据结构,具有以下两个主要特性: 结构特性: 堆是一棵完全二叉树,即除了最后一层的叶子节点外,每一层都是满的,最后一层的叶子节点从左向右依次…

志愿服务管理系统--论文pf

TOC springboot360志愿服务管理系统--论文pf 第1章 绪论 1.1选题动因 当前的网络技术,软件技术等都具备成熟的理论基础,市场上也出现各种技术开发的软件,这些软件都被用于各个领域,包括生活和工作的领域。随着电脑和笔记本的广…

[SWPUCTF 2021 新生赛]babyrce

我们传cookie admin1 访问http://node5.anna.nssctf.cn:29911/rasalghul.php 在PHP中,preg_match函数是一个用于进行正则表达式匹配的内置函数。它可以通过正则表达式对一个字符串进行匹配,判断该字符串是否满足正则表达式的规则。 发现过滤空格&#x…

xss之DOM破坏

文章目录 DOM破坏漏洞的复现https://xss.pwnfunction.com/基于bp学院DOM破坏漏洞复现思路分析实现 常见的xss触发的标签没有过滤的情况存在过滤的情况 DOM破坏 DOM破坏就是⼀种将 HTML 代码注⼊⻚⾯中以操纵 DOM 并最终更改⻚⾯上 JavaScript ⾏为的技术。 在⽆法直接 XSS的情…

牛客JS题(四十五)数组去重

注释很详细&#xff0c;直接上代码 涉及知识点&#xff1a; set的灵活用法去除的判别标准 题干&#xff1a; 我的答案 <!DOCTYPE html> <html><head><meta charset"UTF-8" /><style>/* 填写样式 */</style></head><bo…

【Docker】Docker Compose(容器编排)

一、什么是 Docker Compose docker-compose 是 Docker 官方的开源项目&#xff0c;使用 python 编写&#xff0c;实现上调用了 Docker 服务的 API 进行容器管理及编排&#xff0c;其官方定义为定义和运行多个 Docker 容器的应用。 docker-compose 中有两个非常重要的概念&…

趣映 v2.3.8 高级版 剪映替代品 解锁会员功能

看到名字&#xff0c;想必很多网友会联想到剪映&#xff0c;没错&#xff0c;趣映也是一款类似剪映的视频编辑工具。趣映为用户提供了全面的视频编辑和制作&#xff0c;更专注于动画视频制作的软件。功能齐全&#xff0c;操作简单&#xff0c;可以帮助用户从灵感创作到成片输出…

MYSQL----表的创建

1.创建表 create table 表名&#xff08; field1 datetype, field2 datetype, field3 datetype &#xff09; 1.field字段名&#xff0c;也就是属性&#xff0c;相当于java类里面的成员属性 2.datetype 数据类型 3.最后一个字段的定义&#xff0c;结束没有逗号 4.字段的定义在…

【学习总结】JVM篇

JVM JVM基础知识 主力机型 HotSpot VM HotSpot虚拟机时OpenJDK和OracleJDK中默认的Java虚拟机。它最初并非由Sun公司所开发&#xff0c;而是由一家名为“Longview Technologies”的小公司设计。Sun公司注意到这款虚拟机在即时编译等多个方面有着优秀的理念和实际成果&#…

解决问题:Arcgis10.8“数据“-“导出至CAD“时就卡死了

问题现象&#xff1a;我们在使用Arcgis10.8软件&#xff0c;执行 “数据导出至CAD”操作时&#xff0c;会出现卡死的情况&#xff0c;步骤如下图所示&#xff1a; 解决方案&#xff1a;在菜单栏依次选择“地理处理”-“地理处理选项”&#xff0c;然后在“后台处理”和“发生错…

金价多次尝试刷新最高纪录,美国零售销售数据是绊马索

金价一直在试探新高&#xff0c;该纪录为每盎司2,485美元。而且&#xff0c;强劲的美国零售销售报告正在阻止金价的上涨。 由于强大的阻力&#xff0c;金价无法继续上涨。一周的净空头头寸大增。 发布了强于预期的美国零售销售报告后&#xff0c;金价承受了压力。期望的50个基…

递归--数据结构--黑马

递归 总结一句话&#xff0c;上手直接多刷Leetcode&#xff0c;比看这个更有用。 定义 递归是一种解决计算问题的方法&#xff0c;其中解决方案取决于同一类问题的更小子集。 例如&#xff0c;单链表递归遍历的例子&#xff1a; void f(Node node) {if (node null) {retu…

Ubuntu18.04 配置EtherCAT主站IGH SOEM

IGH IGH 是开源的EtherCAT 主站软件 一、安装依赖 sudo apt update sudo apt install build-essential linux-headers-$(uname -r) mercurial autoconf libtool 也不知道安装的完全不完全 uname -r 可以查看内核&#xff0c;我安装的ubuntu18.04的内核版本是 5.4.0-84-gen…

Koa商城项目-轮播图模块(后端)

前言 通过这次独自做前后端发现有很多需要提升的地方&#xff0c;很多细节处理不到位。下面简单看一下本人自己做的效果吧~~ Git地址 https://gitee.com/ah-ah-bao/koa_system 效果图 后端逻辑分析 首先编写route->banner.router.js /*** author: zxb* date: 2024-08-06…

k8s 部署polardb-x集群

前言 体验了基于源码构建的部署polardb-x 单机部署&#xff0c;当然也想体验性能更好的完全分布式集群。这边文章将重点介绍如何部署polardb-x集群 简介 PolarDB-X 是一款面向超高并发、海量存储、复杂查询场景设计的云原生分布式数据库系统。其采用 Shared-nothing 与存储计…