何恺明重提十年之争——模型表现好是源于能力提升还是捕获数据集偏置?

想象一下,如果把世界上所有的图片都找来,给它们放到一块巨大的空地上,其中内容相似的图片放得近一些,内容不相似的图片放得远一些(类比向量嵌入)。然后,我随机地向这片空地撒一把豆子,那么这把豆子怎么才能尽量撒得均匀?

在真实世界收集数据集的过程就像是在撒豆子,把被撒到豆子的图片收集起来。简单来说,豆子撒不匀,数据集就有偏置。

论文标题:
A Decade’s Battle on Dataset Bias: Are We There Yet?

文章链接
https://arxiv.org/pdf/2403.08632.pdf

数据集偏置之战,最初在2011年由知名学者Antonio Torralba和Alyosha Efros提出——Alyosha Efros正是Sora两位一作博士小哥(Tim Brooks和William Peebles)的博士导师,而Antonio Torralba也在本科期间指导过Peebles。

如今13年过去,这场旷日持久的战争仍在继续,CV大牛何恺明团队再次深度解析这个问题,模型表现好是源于能力提升还是捕获数据集偏置?

GPT-3.5研究测试:

https://hujiaoai.cn

GPT-4研究测试:

https://higpt4.cn

什么是数据集偏置?

数据集偏置(Dataset Bias)是指在数据收集、选择或处理过程中引入的系统性偏差,导致数据集不能公平、全面地代表整个问题空间或现实世界的各个方面,而是较为集中地代表其中某些方面。这种偏差会影响数据集的代表性,进而影响训练模型的鲁棒性、泛化能力和公平性。

计算机视觉任务中,察觉数据集的偏置对人类来说是十分困难的,下面的15张图片分别来自3个数据集,每个数据集5张,你能发现哪5张图片来自同一数据集吗?

揭晓答案: 1, 4, 7, 10, 13来自同一数据集,名为YFCC 2, 5, 8, 11, 14来自同一数据集,名为CC 3, 6, 9, 12, 15来自同一数据集,名为DataComp

尽管对人类来说十分困难,但神经网络却可以轻易地发现数据集中存在的潜在偏置,分类准确率达到84.7%。即使是自监督分类也能达到惊人的78%

数据集偏置的来源(为什么豆子撒不匀?)

1、选择偏置(Selection Bias):数据收集过程中对特定样本的偏好选择。例如,在进行人脸识别研究时,数据集中的大多数人脸来自特定的种族或性别。

2、采样偏置(Sampling Bias):数据集的采样方法未能准确反映目标。

3、标签偏置(Label Bias):在监督学习中,数据标签可能受到客观或主观因素影响,导致某些类别被过度表示或错误标注。

4、社会文化偏置(Sociocultural Bias):数据集可能反映了特定社会、文化的偏见和刻板印象,这些偏见被模型学习后可能在预测时被放大,引发道德和社会问题。

论文的主要实验

论文通过一系列实验,说明了数据集的偏置问题,仍广泛存在于当今的计算机视觉研究中。

作者选定了六个数据集来进行数据集分类任务,用ConvNeXt-T模型来判断图片来自于哪个数据集,结果如下图所示,左边是选择了哪些数据集,右边是分类的准确率指标,作者共进行了24组实验。

即使换用不同的模型,偏置效果依然显著

表为YFCC,CC,DataComp的分类结果

▲表为YFCC,CC,DataComp的分类结果

但是,进行伪数据集分类实验(把同一个数据集随机分成3类并打上不同的类别标签),准确率就会接近33%,这证明了实验任务的合理性。

CV数据集的偏置,是什么样的?

是低阶特征吗?

分别对原始数据集进行颜色抖动、加噪、模糊和降采样操作,如下图所示

发现对数据集的分类性能影响并不大

表为YFCC,CC,DataComp的分类结果

▲表为YFCC,CC,DataComp的分类结果

所以,低阶特征对数据集分类有点影响,但影响不大,低阶特征只能看作是数据集偏置的很小一部分。

更多的实际上是语义特征

文章进行了线性探测实验(linear probing),用于判断两个任务(任务a和任务b)的相似性。

具体来说,步骤是这样的: 1、任务a作为预训练任务,训练模型A 2、冻结模型A的所有参数,然后在A的顶层添加一个简单的线性分类器,我们称为模型B(冻结了参数的A+线性分类器) 3、在任务b上训练模型B

这样我们把模型A作为特征提取器,看看这个特征提取器对任务b的增益。

论文将数据集分类任务作为任务a,然后把ImageNet图片分类任务作为任务b,评估这些通过数据集分类学习到的特征在图像分类任务上的表现,结果如下

Y,C,D等对应前面6个数据集的首字母

▲Y,C,D等对应前面6个数据集的首字母

结果显示,相比于随机初始化的权重,这些特征可以提升ImageNet分类任务的性能,尽管这种提升并不如直接在ImageNet上预训练的模型那样显著。

这证明了数据集分类任务所提取到的特征明显有益于图像分类任务,而图像分类任务需要的是语义特征。

讨论

CV数据集的偏置很可能以语义特征为主,而低阶特征通过干扰语义特征来影响偏置。

对于人类来说,NLP数据集的偏置更容易被察觉,比如文风,语义等等。相比之下,CV数据集的偏置就难以察觉,所以更值得研究。

判断数据集偏置(如何判断豆子到底撒的匀不匀?)

除了论文提到的数据集分类方法,还有一些其他工作提出的方法。

1、交叉数据集验证:在一个数据集上训练模型,然后在另一个数据集上测试它的性能。

2、分析数据集构成:统计分析数据集中的类别分布、样本多样性(如种族、性别、年龄等属性在人脸数据集中的分布),以及图像的获取和处理方式(例如拍摄角度、光照条件等)。

3、用户研究:让人类参与者尝试识别图像的数据集来源或评估图像的多样性。

4、平等机会:对于给定的正确标签,所有群体(通常是受保护的群体,如不同的种族、性别等)都应该有相同的真阳性率。

5、平均奇异值差异:比较两个数据集或两组模型特征的奇异值,以此来衡量它们在统计属性或信息含量上的差异。

用模型对抗数据集偏置(既然豆子撒不匀,有没有弥补的方法?)

这里我们介绍两篇先前的工作,他们试图通过改变模型的训练方式,来减少已有数据集偏置造成的影响。

对抗性学习:通过引入对抗性示例来增强模型鲁棒性,使其无法区分不同群体或类别的数据,从而减少模型对这些特征的依赖。

领域独立训练:使模型能够在多个不同的领域或数据分布中都表现良好。

所以到底怎么撒豆子?

回到我们文章开头的那个问题,我们如何把豆子撒的均匀呢?这篇论文也没有给出答案,自从2011年提出这个问题,它就一直伴随着整个深度学习革命,在今天这仍然是一个值得研究的方向。

总地来说,过去十年里,尽管在减少数据集偏差方面取得了一定进展,但现代神经网络的能力使得它们能够轻易地识别出数据集中的偏置,这提示我们在建立数据集时应当更加小心。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/287853.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Linux实践室】Linux用户管理实战指南:用户密码管理操作详解

🌈个人主页:聆风吟_ 🔥系列专栏:Linux实践室、网络奇遇记 🔖少年有梦不应止于心动,更要付诸行动。 文章目录 一. ⛳️任务描述二. ⛳️相关知识2.1 🔔用户密码存放地及方式2.2 🔔使用…

yolov5+pyside6+登录+用户管理目标检测可视化源码

一、软件简介 这是基于yolov5目标检测实现的源码,提供了用户登录功能界面; 用户需要输入正确的用户名和密码才可以登录。如果是超级管理员,可以修改普通用户的信息,并且在检测界面的右上角显示【管理用户】按钮。 支持图片、视频、…

DNS协议 是什么?说说DNS 完整的查询过程?

一、是什么 DNS(Domain Names System),域名系统,是互联网一项服务,是进行域名和与之相对应的 IP 地址进行转换的服务器 简单来讲,DNS相当于一个翻译官,负责将域名翻译成ip地址 IP 地址&#…

Web API —— DOM 学习(四)(完结)

目录 一、日期对象 (一)实例化 (二)日期对象方法 1.时间戳介绍 2.获得时间戳的方式 getTime()方法 new Date()方法 Date.now()方法 二、节点操作 (一)DOM 节点 1.节点类型 元素节点 &#xff08…

SpringBoot 邮件服务集成配置全面解析

前言 本文以网易邮箱(及 163 邮箱)为例,展示如何为 SpringBoot 项目集成邮件服务,其他邮箱配置类似,可以自行查看 Spring Email 指南 或是其他官方文档 授权码 首先我们需要获取授权码,用于后续配置&…

【线段树二分】第十三届蓝桥杯省赛C++ A组/研究生组 Python 研究生组《扫描游戏》(C++)

【题目描述】 有一根围绕原点 O 顺时针旋转的棒 OA,初始时指向正上方(Y 轴正向)。 在平面中有若干物件,第 i 个物件的坐标为(,),价值为 。 当棒扫到某个物件时,棒的长度会瞬间增长 &#xff…

R语言ggplot2 | 热图+随机森林重要性!升级版~

📋文章目录 原图复现定义ggrf_ggcor_plot()函数加载数据集一键出图函数优点 今天推出一个升级版: ggrf_ggcor_plot的函数。只需要输入 响应变量的矩阵和 解释变量的矩阵,就能轻松一键生成随机森林重要性相关性热图。 原图 所需复现的随机森…

发车,易安联签约某新能源汽车领军品牌,为科技创新保驾护航

近日,易安联成功签约某新能源汽车领军品牌,为其 数十万终端用户 建立一个全新的 安全、便捷、高效一体化的零信任终端安全办公平台。 随着新能源汽车行业的高速发展,战略布局的不断扩大,技术创新不断引领其市场价值走向高点&am…

如何在数字化转型中确保数据安全

随着科技的飞速发展,数字化转型已成为企业发展的必然趋势。数字化转型是指企业利用数字技术对业务流程、组织结构和商业模式进行全面创新和变革,以提高企业的竞争力和创新能力。然而,在数字化转型过程中,数据安全问题日益凸显&…

新能源汽车充电桩主板各模块成本占比解析

汽车充电桩主板是汽车充电桩的重要组件,主要由微处理器模块、通信模块、控制模块、安全保护模块、传感器模块等多个模块构成。深入探究各模块在总成本中的比重,我们可以更好地优化成本结构、提高生产效率,并为未来的技术创新和市场需求变化做…

R语言学习——Rstudio软件

R语言免费但有点难上手,是数据挖掘的入门级别语言,拥有顶级的可视化功能。 优点: 1统计分析(可以实现各种分析方法)和计算(有很多函数) 2强大的绘图功能 3扩展包多,适合领域多 …

Docker - 哲学 默认网络和 自定义网络 与 linux 网络类型 和 overlay2

默认网络:不指定 --nerwork 不指定 网络 run 一个容器时,会直接使用默认的网络桥接器 (docker0) 自定义网络:指定 --nerwork 让这两台容器互相通信 的前提 - 共享同一个网络 关于 ip addr 显示 ens160 储存驱动 ov…

入行AI写作第一个月收入2万+复盘分享

入行AI写作第一个月收入2万复盘分享 AI写作作为一种新兴的创作方式,正逐渐改变着内容产业的生态。在这个领域中,许多人通过自己的努力和智慧,实现了快速的成长和收入的增长。本文将从技术学习与掌握、实践与应用、内容创作与优化、持续学习与…

java 面向对象入门

类的创建 右键点击对应的包,点击新建选择java类 填写名称一般是名词,要知道大概是什么的名称,首字母一般大写 下面是创建了一个Goods类,里面的成员变量有:1.编号(id),2.名称&#x…

护眼落地灯怎么选?五款好评连连的护眼大路灯曝光!

现代人越来越重视视力健康,而护眼落地灯则可以很好的提供良好的光线来帮助大家解决平时用眼时的不良光线困扰,因此,受到了很多人喜爱。但是,在产品爆火的同时,市场上也出现了一些质量差且劣质的护眼落地灯,…

Microsoft .NET 应用程序性能监控

什么是 .NET监控 Microsoft .NET 监视在确保可以开发和部署应用程序而不必面对性能滞后或中断方面发挥着重要作用。它使用警报、增长趋势报告和数据可视化技术来帮助管理员确保 Microsoft .NET 平台的全天候可用性。Microsoft.NET 性能监视是一种检测性能异常的先发制人方法&a…

linux 网卡配置 vlan/bond/bridge/macvlan/ipvlan 模式

linux 网卡模式 linux网卡支持非vlan模式、vlan模式、bond模式、bridge模式,macvlan模式、ipvlan模式等,下面介绍交换机端及服务器端配置示例。 前置要求: 准备一台物理交换机,以 H3C S5130 三层交换机为例准备一台物理服务器&…

Nacos配置中心的敏感数据加密处理

为了简化运维工作,使用nacos作为配置中心,但很多敏感数据都是明文存储的,这样一旦数据泄露,可能会造成很大影响,所以最好把这些数据进行加密处理,下面介绍几种数据的加密。 一、数据库信息加密 数据库的配置本篇介绍两种,一是使用druid连接池的,这种比较常见;二是使…

网络安全-提权篇

我们在文件包含的时候可以将错误的用户名包含进日志,但是权限问题让人很烦恼,今天的侧重点主要是跟大家聊一聊提权 用户名包含进日志参考:RCE with LFI and SSH Log Poisoning - Hacking Articles 目录 一、环境 二、看看权限(…

vue指令相关

vue中有很多的指令像v-on、v-model、v-bind等是我们开发中常用的 常用指令 v-bind 单向绑定解析表达式 v-model 双向数据绑定 v-for 遍历数组/对象/字符串 v-on 绑定事件监听,可简写为@ v-show 条件渲染(动态控制节点是否存展示) v-if 条件渲染(动态控制节点是否存存在) v…