在深度学习中,是否应该打破正负样本1:1的迷信思想?

  • Q:是否应该打破正负样本 1:1 的迷信思想?
    A:是的,类别不平衡的比例只是表象,并非本质。

  • Q:当训练集和测试集分布匹配,但正负样本比例仍然悬殊,是否有必要再引入处理不平衡样本的策略?
    A:通常需要,除非你只关心 overall accuracy,但这意味着你几乎不关心模型分类少数类的能力。

1.是否应该打破正负样本1:1的迷信思想?

长话短说,正负样本并不需要是 1:1,因为类别不平衡的比例一直只是表象,问题的本质从来都是如何帮助模型对每个类(尤其是少数类)都学习到合理的表示。而后者和正负样本比例之间并没有直接的关系。

理论上如果任务足够简单(如完全线性可分,且满足 train/test i.i.d),那么无论正负样本比例多悬殊,模型都能够对测试数据进行完美分类。当然这只对一些直接使用全量数据学习的模型成立,比如决策树、SVM 等。在实际中训练 NN 需要进行 batch-wise 的随机梯度下降训练,连续多个 batch 都只有来自负类的数据会让模型很快收敛到一个 local optimal solution,将所有数据全部预测为负类。

因此出现了其他答案所提到的一些经验结果(如 1:10 等比例),这些比例应该是在特定场景下能够避免模型训练过程 collapse 的比例。

具体在特定场景下,采用什么正负比例还是需要根据实际的 task、model,和 metric 决定。我不认为这个问题存在一个可以解决一切的 magic number。

为什么正负样本比例不一定重要:一个 toy example

见下图,用一个 toy example 就可以从直觉上解释为什么正负样本的比例并不是唯一决定任务难度的因素。

▲ 从左到右:类别比例(imbalance ratio/IR)逐渐增长。第一行:一个线性可分的简单任务。第二行:一个相对困难的复杂任务。

如果任务很简单(如上图第一行的数据分布,线性可分) ,那么即便有很悬殊的正负样本数量比例(如最右侧,正负样本 1:100),也不影响模型可以直接在原始数据上学习得到一个完美的分类边界,并实现 0 错误率:见下图第一行,即使 IR=100 模型也可以实现 0 分类错误(分类错误的 sample 由红色表示)。

而如果任务本身就很困难(如上图第二行,不同类别的 underlying distribution 有较大 overlap 且在 feature space 中有复杂的 pattern),那么即便正负样本比例差距不大,同样的模型也很难学到合理的边界(见下图第二行)。

▲ 第一列:任务示例。第二/三列:KNN/AdaBoost 分类器在每个任务上的结果。红色的点被误分类。

2.当训练集和测试集分布匹配,但正负样本比例仍然悬殊,是否有必要再引入处理不平衡样本的策略?

A:通常需要,除非你只关心 overall accuracy,但这意味着你几乎不关心模型分类少数类的能力。

如上所述,如果两类样本数量悬殊且不做任何处理,模型会连续很多 batch 都只遇到来自负类的样本,这容易使其收敛到 trivial solution。将所有样本预测为负类的 trivial solution 会有很高的 overall accuracy(例如正负比 1:10000,那其 acc=99.99%)。

但通常我们都更加关心少数类样本(positive cases,例如医疗诊断中的病人、欺诈/攻击检测中的恶意用户等)并使用 balanced accuracy,macro-f1 等 metric。优化这些更加合理的 metric 就需要引入处理不平衡样本的策略

3.重采样之余,还有哪些方式处理类别不平衡?

重新采样改变正负样本比例只是其中一种从数据出发的方式。我开发的 imbens package 实现了为类别不平衡设计的十几种重采样技术与 ensemble 学习方法,具有与 sklearn-style 的易用 API 设计和详细的文档及示例,并已在 github 收获近 300 星,每月下载逾 2000 次

https://github.com/ZhiningLiu1998/imbalanced-ensemble

https://zhuanlan.zhihu.com/p/376572330

▲ 一些 IMBENS 官方文档中提供的使用示例

在重采样之余,处理深度学习的不平衡有很多从其他方面入手的经典例子:

  • 类别重加权:Class-Balanced Loss Based on Effective Number of Samples(CVPR 2019)

  • 难例挖掘:Focal loss for dense object detection(ICCV 2017)

  • margin-based loss:Learning Imbalanced Datasets with Label-Distribution-Aware Margin Loss(NIPS 2019)

  • meta-learning 自动学习加权/采样策略:

    • MESA: Boost Ensemble Imbalanced Learning with MEta-SAmpler(NeurIPS 2020)

    • Meta-weight-net: Learning an explicit mapping for sample weighting(NIPS 2019)

  • 设计特殊模型架构:BBN: Bilateral-Branch Network with Cumulative Learning for Long-Tailed Visual Recognition(CVPR 2020)

  • 改变训练过程/策略:Decoupling Representation and Classifier for Long-tailed Recognition(ICLR 2020)

  • 后验概率校正:Posterior Re-calibration for Imbalanced Datasets(NeurIPS 2020)

更多相关的技术和论文,请见我们的 awesome-imbalanced-learning 项目,已在 github 上收获逾 1.3k 星:

https://github.com/ZhiningLiu1998/awesome-imbalanced-learning

https://zhuanlan.zhihu.com/p/111460698

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/432371.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

新峰商城之订单处理流程

订单处理是电商系统中的重要模块,从用户单击提交订单并成功生成订单开始,包括订单支付成功、订单信息确认、订单出库、到确认收货的正常订单流程。也包括了订单取消、订单退款等其它异常流程。 一、订单处理流程 正常流程: 订单生成后&…

Git - 初识版本库

版本库也叫仓库,英文名 repository。 ‍ 创建版本库 之前我们说了版本库的概念: 存储版本的地方(存放各个版本之间差异的地方),通常称为版本库。通常版本库是以文件(夹)的形式存放在磁盘上&a…

处理RabbitMQ连接和认证问题

在使用RabbitMQ进行消息队列管理时,我们可能会遇到各种连接和认证问题。本文将介绍如何诊断和解决这些问题,并通过使用RabbitMQ的管理端进行登录验证来确保配置正确。 1. 问题概述 在最近的一次部署中,我们遇到了两个主要问题: …

成为谷歌开发者专家(GDE)的经历

大家好,我是张海龙(Jason)。经过一年多的准备,GDE申请 终于正式成功通过面试,成为了国内第一位Firebase GDE。下面对整个过程做个总结,希望对大家有所帮助。 1.什么是 GDE? Google Developers上面有详细的说明&#x…

Apache Druid命令执行(CVE-2021-25646)

漏洞详情: Apache Druid 是用Java编写的面向列的开源分布式数据存储系统,旨在快速获取大量事件数据,并在数据之上提供低延迟查询。 Apache Druid含有能够执行嵌入在各种类型请求中由用户提供的JavaScript代码功能。此功能适用于高度信任环境…

计算机前沿技术-人工智能算法-大语言模型-最新论文阅读-2024-09-21

计算机前沿技术-人工智能算法-大语言模型-最新论文阅读-2024-09-21 1. AIvril: AI-Driven RTL Generation With Verification In-The-Loop Authors: Mubashir ul Islam, Humza Sami, Pierre-Emmanuel Gaillardon, and Valerio Tenace AIVRIL: 人工智能驱动的RTL生成与验证内…

如何在Excel中快速找出前 N 名,后 N 名

有如下销售额统计表: 找出销售额排前 10 名的产品及其销售额,和销售额排倒数 10 名以内的产品及其销售额,结果如下所示: 前 10 名: spl("E(?1).sort(ProductSales:-1).to(10)",A1:C78)后 10 名&#xff1…

K8S精进之路-控制器StatefulSet有状态控制 -(2)

状态说明 在进行StatefulSet部署之前,我们首先可能要了解一下,什么是"有状态应用"和"无状态应用"。无状态应用就是pod无论部署在哪里,在哪台服务器上提供服务,都是一样的结果,比如经常用的nginx。…

Debian与Ubuntu:深入解读两大Linux发行版的历史与联系

Debian与Ubuntu:深入解读两大Linux发行版的历史与联系 引言 在开源操作系统的领域中,Debian和Ubuntu是两款备受瞩目的Linux发行版。它们不仅在技术上有着密切的联系,而且各自的发展历程和理念也对开源社区产生了深远的影响。本文将详细介绍…

主数据的前世今生与治理方法论(附PPT | 某集团公司主数据项目案例与方法论)

主数据(Master Data)是指企业内核心业务实体数据,具有共享、稳定、跨部门和系统的特点。主数据在企业数据管理中扮演着至关重要的角色,它是企业核心业务实体数据的核心组成部分。它是企业经营运作的主体对象,也是企业数…

HTTP中的event-stream,eventsource,SSE,chatgpt,stream request,golang

我们都知道chatgpt是生成式的,因此它返回给客户端的消息也是一段一段的,所以普通的HTTP协议无法满足,当然websocket是能满足的,但是这个是双向的通信,其实 SSE(Server-Sent Events) 正好满足这个…

[数据集][目标检测]手机识别检测数据集VOC+YOLO格式9997张1类别

数据集格式:Pascal VOC格式YOLO格式(不包含分割路径的txt文件,仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数):9997 标注数量(xml文件个数):9997 标注数量(txt文件个数):9997 标注…

用Python提取PowerPoint演示文稿中的音频和视频

将多种格式的媒体内容进行重新利用(如PowerPoint演示中的音频和视频)是非常有价值的。无论是创建独立的音频文件、提取视频以便在线分发,还是为了未来的使用需求进行资料归档,从演示文稿中提取这些媒体文件可以为多媒体内容的多次…

Remotion:使用前端技术开发视频

前言 最近做文章突然想到很多文章其实也可以用视频的方式来展现,以现在短视频的火爆程度,肯定能让更多的人看到。 恰巧最近看了很多关于动画的前端 js 库,那如果将这些动画帧连续起来,岂不是就成了一个视频吗? 而且…

本地电脑基于nginx的https单向认证和双向认证(自制证书+nginx配置)保姆级

目录 1、背景 2、运行环境 3、工具下载 3.1、OpenSSL下载 3.2、nginx下载 4、制作https证书: 4.1、CA与自签名: 4.2、制作CA根证书(公钥) 4.3、制作服务端证书: 4.4、制作客户端证书: 4.5、制作…

了解云计算工作负载保护的重要性,确保数据和应用程序安全

云计算de小白 云计算技术的快速发展使数据和应用程序安全成为一种关键需求,而不仅仅是一种偏好。随着越来越多的客户公司将业务迁移到云端,保护他们的云工作负载(指所有部署的应用程序和服务)变得越来越重要。云工作负载保护&…

性能指标前言:`DOMContentLoaded`和`load`

前言:DOMContentLoaded和load 最初,评价前端页面加载性能有两个指标:DOMContentLoaded和load事件,分别代表 DOM 树构造完成和首屏资源加载完成。 DOM 文档加载步骤: 解析 html 结构加载外部脚本和样式表文件解析并执…

生活英语口语柯桥学英语“再确认一下“ 说成 “double confirm“?这是错误的!

在追求英语表达的过程中,我们常常会遇到一些看似合理实则错误的表达习惯。今天,我们就来聊聊一个常见的误区——“再确认一下”被误译为“double confirm”。 “再次确认”不是double confirm 首先,我们需要明确,“double confi…

线性基定义性质及例题

线性基的定义 以上是官方给出的线性基的定义,但是需要一定的线性代数的基础,其实线性基很好理解,我们用下面一个例子去讲解 假设有3个数,1,2,3,我们这三个数互相异或总共有八种可能,我们能否找到一组数去…

HelpLook VS GitBook,在线文档管理工具对比

在线文档管理工具在当今时代非常重要。随着数字化时代的到来,人们越来越依赖于电子文档来存储、共享和管理信息。无论是与团队合作还是与客户分享,人们都可以轻松地共享文档链接或通过设置权限来控制访问。在线文档管理工具的出现大大提高了工作效率和协…