基础模型自监督预训练的数据之谜:大量数据究竟是福还是祸?

df4f026ddd9c78def2563fac94b15991.gif

©作者 | 诺亚方舟实验室

大型语言模型如 ChatGPT 的成功彰显了海量数据在捕捉语言模式和知识方面的巨大潜力,这也推动了基于大量数据的视觉模型研究。在计算视觉领域,标注数据通常难以获取,自监督学习成为预训练的主流方法。然而,在自监督预训练中,是否数据越多越好?数据增广是否始终有效?华为诺亚方舟实验室与香港科技大学的研究团队近期发现:

主流自监督预训练方法如 Masked Autoencoder (MAE) 存在负迁移现象,即在预训练过程中包含无关数据可能导致下游任务性能下降。

面向 MAE 的有效数据增强策略仍有待探讨。区别于对比学习高度依赖数据增强策略,在 MAE 中采用数据增强策略,如简单的图像混合,可能会导致互信息 (MI) 的增加而降低模型性能。

为解开这些数据之谜,研究团队提出了一种新颖的预训练范式——Mixture of Cluster-conditional Experts (MoCE)。借鉴 Mixture-of-Experts (MoE) 的概念,MoCE 可以通过一次预训练,为不同下游任务提供定制化模型。在多个下游任务中,包括图像分类、目标检测和分割等,MoCE 超越了传统的 MAE 预训练方法。该研究成果已被 ICLR 2023 会议接收为 Spotlight 论文。

d24f6fdab86de6654d50bd1f559b8995.png

论文标题: 

Task-customized Masked Autoencoder via Mixture of Cluster-conditional Experts

论文链接:

https://openreview.net/forum?id=j8IiQUM33s

此外,团队还提出了一种名为混合自编码器 (MixedAE) 的简单而有效的方法,将图像混合应用于 MAE 数据增强。MixedAE 在各种下游任务(包括图像分类、语义分割和目标检测)上实现了最先进的迁移性能,同时保持了显著的效率。这是第一个从任务设计的角度将图像混合作为有效数据增强策略应用于基于纯自编码器结构的 Masked Image Modeling (MIM) 的研究。该工作已被 CVPR 2023 会议接收。

425a8147a95776efd57b33ddc69a56db.png

论文标题: 

Mixed Autoencoder for Self-supervised Visual Representation Learning

论文链接:

https://arxiv.org/abs/2303.17152

0520ad264d96fc05ba466ffbc11161f2.png

研究背景

在机器学习领域,预训练模型已经成为一种流行的方法,可以提高各种下游任务的性能。然而,研究发现,自监督预训练存在的负迁移现象。诺亚 AI 基础理论团队的前期工作 SDR (AAAI 2022) [1] 首次指出自监督预训练的负迁移问题,并提供初步解决方案。

具体来说,负迁移是指在预训练过程中使用的数据与下游任务的数据分布不同,导致预训练模型在下游任务上的性能下降。在自监督学习中,模型在无标签数据上进行预训练,学习数据的潜在特征和表示。然而,当预训练数据与下游任务的数据分布存在显著差异时,模型可能学到与下游任务无关或甚至有害的特征。

e7741c2dba9925fec2a912983f0949a2.png

相关工作

1. 自监督预训练的负迁移现象

cf2b7ede951a5d5e237cf891045554df.png

▲ 图一:我们用ImageNet的两个子集,Split-A和Split-B,训练两个MAE模型,和全量数据集训练的模型相比较,后者仅在2个数据集上达到了最优。这说明,增大数据量并不总是带来更强的迁移效果。

以目前较为流行的自监督学习算法 MAE 为例,我们评估了使用不同语义数据进行预训练的 MAE 模型在迁移性能上的表现。我们将 ImageNet 数据集分为两个不相交的子集 Split-A 和 Split-B,根据 WordNet 树中标签的语义差异进行划分。Split-A 主要包含无生命物体(如汽车和飞机),而 Split-B 则主要涉及有机体(如植物和动物)。

接着,我们在 Split-A、Split-B 和完整的 ImageNet 数据集上分别进行了 MAE 预训练,并在 11 个下游任务上评估了这三个模型的性能。如图一所示,在仅含 2 个语义丰富数据集(Caltech,VOC)的情况下,基于完整 ImageNet 训练的 MAE 获得了最佳的迁移效果;在非生物下游数据集 (Aircraft,Cars,SUN,DTD) 上,Split-A 的表现更佳;而在包含 Flowers,Food,Pets,CIFAR10,CIFAR100 等数据集上,Split-B 的表现更优。

这表明,当下游任务与预训练数据分布不同时,与任务无关的预训练信息可能导致负迁移,从而限制了 MAE 模型的可扩展性。换言之,若一个 MAE 模型的预训练数据去除了与下游任务数据集相似度较低的部分,则其性能可能优于包含这些无关数据的预训练模型。这突显了开发针对特定下游任务的定制化预训练方法以避免负迁移现象的重要性。

2. 自监督数据增强难题

在自监督预训练中,与依赖数据增强的对比学习不同,我们发现传统数据增强手段可能会削弱 MAE 的模型性能。以图像混合增强(Image Mixing)为例,设随机变量 X1 和 X2 表示两个输入图像,M 表示随机生成的掩码,我们可以证明混合输入 σmix({X1,X2},M) 与重构目标 X1 之间的互信息 (MI) 不小于 MAE 输入 σmae(X1,M) 与 X1 之间的互信息(详见论文附录)。

a69340076e9e613779b12d473b9b1bb6.png

因此,简单的图像混合增强会提升模型输入与重构目标之间的互信息。尽管这对监督学习和对比学习有益,但它却简化了 MAE 的图像重构任务,因为掩码操作 (masking) 的根本目的恰恰是降低模型输入和重构目标之间的互信息,以减少图像信号的冗余。这表明以 MAE 为代表的掩码图像建模对数据增强具有与传统判别式训练范式不同的偏好,进而带来了 MAE 自监督学习中的数据增强难题。

1ee0fb38543bb7814f96bf1faace316d.png

方法

1. MoCE

Mixture of Cluster-conditional Expert (MoCE) 通过数据聚类和显式地使用具有相似语义的图像来训练每个专家,以实现针对特定任务的定制自监督预训练。MoCE 的过程分为三个阶段,具体如下:

1. 首先,我们使用预先训练好的 MAE 模型对整个数据集进行聚类。每张图片被分到不同的聚类中,并记录每个聚类的中心点,形成矩阵 C。

2. 然后,受 Mixture-of-Experts (MoE) 多专家模型的启发,我们构建了基于聚类先验的 MoCE 模型。与目前常用的视觉多专家模型将每个图像的 token 路由到某个专家不同,MoCE 让每个专家负责训练一组相似的聚类图片,使得每个专家在不同语义数据上得到显式训练。

具体来说,现有的视觉多专家模型基于 ViT 构建,将原先某些 Transformer Block 中的单个 MLP 层扩展为多个 MLP 层,每个 MLP 被称作一个专家 (expert)。同时引入一个门控网络 (gate network),该门控网络决定每个 token 应该去往哪个专家。

MoCE 多专家层的核心改变是门控网络的输入:

052c2c7700676dbf1202e5d1fbbfc91a.png

这里,C[x] 表示 token x 所属图片所在的聚类中心(我们在第一步已经完成了聚类),而不是原先的 token 嵌入。这样,属于同一个聚类的图片的 tokens 都会被路由到同一个专家,从而显式地区分每个专家在语义上的差异。为了稳定训练并增强门控网络的置信度,我们提出了两个额外的正则化损失,并在实验中发现了它们的有效性。

3. 当下游任务到达时,我们引入了一个搜索模块来选择最适合用于迁移学习的专家。具体而言,我们重复利用第一步提到的聚类模块,找到与下游数据集最相似的聚类,然后找到该聚类所训练的专家,将其单独提取出来,舍弃其他专家进行迁移。这样,在下游任务中,我们始终使用一个正常大小的 ViT 模型。

2. MixedAE

Mixed Autoencoder (MixedAE) 提出辅助代理任务——同源识别 (Homologous recognition),旨在显示要求每个图像块识别混合图像中的同源图像块以缓解图像混合所导致的互信息上升,从而实现物体感知的自监督预训练。MixedAE 的过程分为三个阶段,具体如下:

1. 混合阶段:在给定混合系数 r 的情况下,将输入图像随机划分为不同的图像组,并根据 r 对每个图像组进行随机混合,生成混合图像。

2. 识别阶段:鉴于 Vision Transformer 中全局自注意力的使用,在重构过程中,各个图像块不可避免地与来自其他图像的异源图像块发生交互,从而导致互信息的上升。因此我们提出同源自注意力机制 (Homologous attention),通过部署一个简单的 TopK 采样操作,要求每个图像块显示识别并仅与同源图像块做自注意力计算,以抑制互信息的上升。

8931ed534b85320119bafb4244263521.png

3. 验证阶段:为了验证同源自注意力的准确性,我们提出同源对比损失 (Homologous contrasitve)。对于任意查询图像块 (query patch),我们将其同源图像块视为正样本,异源图像块作为负样本,以促进同源图像块特征的相似度,从而显示要求图像块识别并仅和同源图像块做自注意力计算。最后,同源对比损失将和原始图像重构损失一起以多任务形式优化网络参数进行自监督预训练。

dde007e78fc322ca843a8265e4a3b44c.png

实验分析

1. MoCE

我们在之前提到的 11 个下游分类数据集和检测分割任务上做了实验。实验结果表明,MoCE 在多个下游任务中的性能超过了传统的 MAE 预训练方法。具体而言,在图像分类任务中,MoCE 相较于 MAE 实现了更高的准确率。在目标检测和分割任务中,MoCE 也取得了更好的表现,包括更高的 mIoU 和 AP 指标。这些实验结果表明,MoCE 通过利用相似语义图像进行聚类并为每个专家进行任务定制的自监督预训练,能够在各种下游任务中提高迁移性能。

481df5a3b17ffbca1a0eb6aaac6b0162.png

▲ 表一:MoCE在细粒度数据集上有较大提升,在类别比较宽泛的任务上也有少量提升。

2. MixedAE

在 14 个下游视觉任务(包括图像分类、语义分割和物体检测)的评估中,MixedAE 展现了最优的迁移性能和卓越的计算效率。相较于 iBOT,MixedAE 实现了约 2 倍预训练加速。得益于图像混合所带来的物体感知预训练,MixedAE 在下游密集预测任务上取得更显著的性能提升。注意力图可视化结果表明,MixedAE 能比 MAE 更准确完整地识别图像前景物体,从而实现优异的密集预测迁移性能。

ea0cfc90cc9b644e1f499cdb6465ba8b.png

▲ 表二:MixedAE在不同训练代价下均获得当前最优结果,展现了卓越的计算效率。

3de70f449e2f859fc4abbfe42a31b168.png

▲ 图二:注意力图可视化。得益于ImageNet的单实例假设[2]以及物体感知的自监督预训练,MixedAE可以更准确完整地发现图像前景物体,从而实现更好的密集预测迁移性能。

ca6ec7a76b3ce5e172bd06c20ecc24eb.png

作者介绍

结合 MoCE 和 MixedAE 的研究发现,我们揭示了自监督预训练中数据之谜:数据量不再是唯一关键因素,而是如何利用数据和进行定制化预训练和数据增广更为关键。MoCE 通过数据聚类和专家定制训练,显著提高了针对特定下游任务的迁移性能。MixedAE 则通过一种简单有效的图像混合方法,实现了在各种下游任务中的最先进迁移性能。这些研究发现不仅为自监督预训练领域提供了新的视角,还为开发更为高效、可扩展和定制化的预训练方法提供了指导和启示。我们希望这些探索是一个有效利用更多数据量的途径,并为研究者们提供新的思路。

* 本文由 GPT-4 撰写初稿并润色。

outside_default.png

参考文献

outside_default.png

[1] Task-customized Self-supervised Pre-training with Scalable Dynamic Routing, AAAI 2022. 

[2] MultiSiam: Self-supervised Multi-instance Siamese Representation Learning for Autonomous Driving, ICCV 2021.

更多阅读

1edf1914a13747a871533710b4607b45.png

2c2d2c8ed6ff9b74e2f18b2ebff39a03.png

82d61d46666efb5d056b1000cd7e2e47.png

d87c09862250bdeb568a7da37fae7bf0.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

1c5e56b573b7e177aefc11b1c3042b7b.png

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

8f488ebbb2a1709deb1885bb555bb8d0.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/38566.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

巴比特 | 元宇宙每日必读:钉钉接入“通义千问”大模型,输入「/」可唤起10余种AI功能,拥挤的算法层外,应用层的革命开始了?...

摘要:据机器之心报道,今天,在 Copilot 面世一个月后,阿里巴巴旗下的钉钉也迈出了重要一步,演示了一个生产力工具在接入通义千问大模型之后所能带来的变革——只需输入一条「/」,就可唤起 10 余项 AI 能力&a…

程序员职场背锅甩锅指南

作者|无精疯 来源|大数据肌肉猿(ID:BigData-BigMuscle) 背景 最近在进行一个新项目,所以在有些需求不明确或工作任务不明确的时候难免做些无用功。但是,在跟领导确认了多遍需求之后,…

06【托业口语】 - PART6 Express an opinion

06【托业口语】- PART6 Express an opinion 评价标准:发音,语调,语速,重音,流畅度,连贯性,文章水平和多样性,词汇,全体构成 主题类型:职场生活&#xff0c…

c语言口语评分系统,FCE口语评分标准:考官更喜欢这样的考生

从KET, PET,FCE到BEC, IELTS 的口语面试,评分大多维度相似: 流利度,语法,词汇,发音。 换句话说,只要能较自然地流畅表达自己的观点,分数一般都较高。 KET/PET/FCE口语四大评分标准: …

logo字体在线设计工具

u钙网 http://www.uugai.com 自己做项目的时候没有UI设计师,图片logo都得自己搞,这下再也不怕没有UI 给你们看一下之前的logo丑爆了,而且用代码写标题 h1这种的,好难看啊,那天研究了半天的css3新属性font-face&…

字体图标 icon font

Icon font icon font 指的是用字体文件取代图片文件,来展示图标、特殊字体等元素的方法。 应用场景: iconfont的优缺点 大小可以自由地变化颜色可以自由地修改添加阴影效果*IE6也可以支持支持一些CSS3对文字的效果字体文件比图片文件小很多由于是字体…

字体图标库icomoon和iconfont使用方法

目录 1.iconmoon.io使用教程 2.iconfont.cn使用教程 3.如何不通过iconfont项目向已有字体图标中添加新的字体图标 1.iconmoon.io使用教程 icomoon是一个图标很全的字体库,以下介绍一下使用方法。 1.首先,打开官网https://icomoon.io/ 2.点击右上角的…

如何在微信小程序中使用icon字体图表

1.首先我们需要去icon字体库中选中几个想要的图标加入购物车 2.点击右上角的购物车图标进入 3. 进入购物车,点击下载代码 4.下载好的文件夹进行解压 5.将.ttf后缀文件转化为base64格式的方式(推荐网址:Online font-face generator — Transfo…

iconfont字体图标的使用方法之Font class--超简单

目录 step 1:百度iconfont,找到阿里巴巴矢量图标库官网,然后注册登录,或者用github登录也行,此步骤跳过;step 2:找到图标管理->我的项目->然后新建项目:step 3:项目新建完成后,往项目里添加我们要想使用的图标,找到图标库,搜索一个想要的图标,然后添加到购物车;step 4:添…

微信小程序----引入外部字体库iconfont的图标

WXRUI体验二维码 如果文章对你有帮助的话,请打开微信扫一下二维码,点击一下广告,支持一下作者!谢谢! 直接使用阿里巴巴的网络路径 选择iconfont图标 官网:阿里巴巴矢量字体库 步骤:阿里巴巴字…

在线引入 iconfont 特殊图标字体

一、前言 本节使用的例子是 阿里巴巴图标库 的图标 有时候我们想在自己写的网页上在线引入一个或多个图标字体 比如下面这种 上面是一些来自 阿里巴巴图标库 网站的图标 如果通过下载到本地然后通过本地引入的话,网页中的这些图标在别人查看的时候是无法显示的&…

如何引入iconfont字体图片和网页标题logo

目录 初步准备 引入方式分为三种: unicode在线链接: unicode本地链接: font-class在线链接: font-class本地引入方法: symbol的在线链接引入: symbol的本地引入: 初步准备 第一步: 第二步&…

在线使用iconfont字体图标

使用阿里巴巴矢量图标库 用前准备 在线使用案例 三种使用方式介绍 vue项目(本地)使用iconfont字体图标 vue中手动封装iconfont组件(三种引用方式的封装) 使用准备 进入 阿里巴巴矢量图标库 ,登陆以后,搜索需要的图标&#xff0…

图标字体的简介使用

图标字体的简介&使用 一、图标字体的简介 身处信息世界,我们每天都遨游在缤纷多彩的网页中。有没有那么一刻,你注意到了如下图这些可爱漂亮的图标?你是否也想在自己的网页中使用?接下来,让我们一起来get这项技能…

使用iconfont.ttf图标文字库代替图标图片

1 效果2 下载字体库 1) 选中图标 —— 添加入库:2) 添加至项目:3) 下载项目中的图标字体库:4)获取图标字体库iconfont.ttf5)查看图标对应的unicode值 3 修改字体库 1)把iconfont.ttf拷贝到项目assets目录中…

试试TextLogoLayout生成自己的logo

文本徽标布局 这是论文的官方 Pytorch 实现: 通过内容感知布局推断的审美文本标志合成。2022 年简历。 论文:arxiv 补充:链接 演示 我们的模型将字形图像及其相应的文本作为输入,并自动为它们合成美学布局。 英文结果&#…

字体图标浅析——什么是字体图标?如何生成?怎么使用?

目录 什么是字体图标?字体图标字体-Font字体的工作原理 字体图标的原理字体图标的优缺点 怎么生成字体图标第一步:其他图片转为 svg 格式图片第二步:svg 图片生成为字体图标IcoMoon 使用介绍Iconfont-阿里巴巴矢量图标库 字体图标怎么用字体的…

元宇宙市场爆发,虚拟数字人直播狂飙

日本虚拟偶像Vox在B站的首场直播1.7小时,直播营收突破111w元。另一位美籍亚裔虚拟主播Shoto两小时直播便获得100w打赏!国内虚拟主播许安一单场直播获得了970w的打赏。在大火的元宇宙概念中,虚拟主播以直播方式斩获流量,实现盈利&a…

「从零入门推荐系统」20:推荐系统的未来发展

作者 | gongyouliu 编辑 | gongyouliu 随着科学技术的进步,信息技术、网络技术及物联网的快速发展,新信息的生产与传播更加便捷、快速。特别是最近大火的chatGPT、大模型技术引领的新一轮科技革命,让每一个人都可以轻松地生产各种各样的内容&…

【世界读书日】2023年通信好书推荐

今天是世界读书日(4月23日)。按照老规矩,小编给大家推荐一些通信类的优秀书籍。 过去一年,通信行业的关注热点,主要是:5G-Advanced(5.5G)、算力网络、东数西算、6G、卫星互联网、智…