RMIT阿里UTS中山提出Target-aware Transformer,进行one-to-all知识蒸馏!性能SOTA

关注公众号,发现CV技术之美


本文分享 CVPR 2022 Oral 的一篇论文『Knowledge Distillation via the Target-aware Transformer』,由RMIT&阿里&UTS&中山提出Target-aware Transformer,进行one-to-all知识蒸馏!性能SOTA!

详细信息如下:

f569ef6df259374824b504f5e0a90719.png

  • 论文链接:https://arxiv.org/pdf/2109.11295.pdf


      01      

摘要


知识蒸馏(Knowledge distillation)成为提高小型神经网络性能的方法。以往的大多数研究都提出以一对一的空间匹配方式将表征特征从教师回归到学生。然而,人们往往忽略了这样一个事实,即由于结构的不同,同一空间位置上的语义信息通常是不同的。这极大地削弱了一对一蒸馏方法的基本假设。为此,作者提出了一种新的一对多空间匹配知识提取方法。

具体地说,作者允许将教师特征的每个像素提取到学生特征的所有空间位置,给定其相似性。在各种计算机视觉基准测试中,例如ImageNet、Pascal VOC和COCOStuff10k,本文的方法大大超过了最先进的方法。

      02      

Motivation

知识蒸馏是一种简单的技术来提高任何机器学习算法的性能。一种常见的情况是从较大的教师神经网络中提取知识到较小的学生神经网络中,这样与单独训练学生模型相比,学生模型的性能可以得到显著提高。具体地说,人们构造了一个外部损失函数来引导学生特征图模仿教师的特征图。最近,它已被应用于各种下游应用,如模型压缩、半监督学习。

以往的工作只从最后一层的神经网络中提取知识,例如图像分类任务中的Logits。近年来,人们发现提取中间特征图是一种更有效的方法。

c52634b0a1819d171573a4e2f1918de2.png

为了计算上述方法的蒸馏损失,需要选择来自教师的源特征图和来自学生的目标特征图,其中这两个特征图必须具有相同的空间维度。如上图b所示,模型通常以一对一空间匹配的方式计算损失。该方法的一个基本假设是每个像素的空间信息是相同的。在实践中,这一假设通常是不成立的,因为学生模型通常比教师模型具有更少的卷积层。

上图 (a) 中显示了一个示例,即使在相同的空间位置,学生特征的感受野通常也明显小于教师的感受野,因此包含较少的语义信息。此外,最近的工作证明了感受野对模型表征能力的影响的重要性。这种差异是当前一对一匹配蒸馏导致次优结果的一个潜在原因。

为此,作者提出了一种新颖的one-to-all空间匹配知识蒸馏方法。在上图 (c) 中,本文的方法通过参数相关性将教师在每个空间位置的特征提炼成学生特征的所有部分,即蒸馏损失是所有学生部分的加权求和。为了对这种相关性进行建模,作者制定了一个Transformer结构,该结构重建了学生特征的相应各个组成部分,并产生了与目标教师特征的对齐。作者将其命名为目标感知transformer(target-aware transformer)。因此,作者使用参数相关性来衡量以学生特征和教师特征的表征成分为条件的语义距离,以控制特征聚合的强度,从而解决了一对一匹配知识提取的缺点。

由于本文的方法计算特征空间位置之间的相关性,当特征图很大时,它可能变得很难处理。为此,作者以两步分层的方式扩展了我们的方法:1)不计算所有空间位置的相关性,而是将特征图分割为几组patch,然后在每组中执行one-to-all的提取;2) 作者进一步将patch中的特征平均化为单个向量,以提取知识。这降低了本文方法的复杂性的数量级。

作者在两个流行的计算机视觉任务评估了本文的方法,即图像分类和语义分割。在ImageNet分类数据集上,tiny ResNet18学生的top-1准确率可以从70.04%提高到72.41%,超过最先进的知识蒸馏0.8%。对于COCOStuff10k上的分割任务,与之前的方法相比,本文的方法能够将mobilenetv2结构的mIoU提高1.75%。


      03      

方法

在本节中,作者首先简要描述了特征映射知识提取的基本要素,然后介绍了通过目标感知transformer进行知识提取的一般公式。当本文的方法计算给定特征映射的逐点相关性时,计算复杂性在大规模特征上变得难以处理,然后作者引入分层蒸馏方法来解决这一限制。

3.1. Formulation

假设教师和学生是两个卷积神经网络,用T和S表示。和分别表示教师特征和学生特征。在之前的工作中,蒸馏损失由网络最后一层特征的距离来表示:例如,在图像分类领域,它指的是进入softmax层之前的“logits”和交叉熵损失。具体而言,蒸馏损失定义为:

b6cfc01b26816b32d8cfef0e2f4f47ba.png

其中,KLD(·)测量Kullback-Leibler散度,σ(·)是softmax函数,T(x)和S(x)是给定特定输入x的输出对数,τ是温度系数。在不丧失一般性的情况下,作者假设通道维度与C对齐,并将和 reshape为2D矩阵:

40d7db16092caf3ab9839cdfb2333e34.png

这里,是一个将3D特征张量展平为2D矩阵的函数,其中矩阵的每一行按空间顺序与特征张量中的一个像素相关联,N=H×W。可以用基数N描述两组像素和:

b4987cd090d843f9b93a7e8bdeb235ec.png

之前的工作简单地以一对一的空间匹配方式最小化两组和之间的差异,作者将这种方法称为特征匹配(FM):

529789398440b37aa35be8a8e6d56ac0.png

这个公式假设教师和学生的语义分布完全匹配。然而,如前所述,对于通常包含更多层和更大特征通道的教师网络的特征图,与学生网络相比,相同像素位置的空间信息包含更丰富的语义信息。以像素方式直接回归特征可能会导致次优的提取结果。

为此,作者提出了一种one-to-all空间匹配知识提取方法,允许教师的每个特征位置以动态方式指导整个学生特征。为了让整个学生模仿教师的一个空间成分,作者提出了Target-Ware Transformer(TaT)来对学生特征在特定位置的语义进行像素级的重新配置。给定教师的空间分量(对齐目标),作者使用TaT引导整个学生在其相应位置重建特征。以对齐目标为条件,TaT应反映与学生特征组件的语义相似性。作者使用线性算子来避免改变学生语义的分布。变换算子的公式可定义为:

f1837e04be529b4bd2a1bf1a45929c99.png

其中,和表示教师和学生的相应第i个分量,表示内积,。作者使用内积来度量语义距离,并使用softmax函数进行归一化。的每个元素都类似于gate,控制将传播到第i个重新配置点的语义量。通过在所有组件中聚合这些相关语义,可以得到了以下结果:

73f51eb67ccb98ce7ed3a2e2dde928ff.png

因此,上述两个公式可以表示为:

1f8bff4063f409f063e1f98685184197.png

这是一种简单的非参数方法,仅依赖于原始特征。为了便于训练,作者引入了在学生特征和教师特征上应用额外线性变换的参数化方法。作者观察到,在消融研究中,参数化版本比非参数版本表现更好。在目标感知transformer的指导下,可将重新配置的学生特征表示为:

8c0825054bb96635bed3e164b5551fc6.png

其中是由3×3 conv层加上BN层组成的线性函数。如果的通道数与的通道数不匹配,有助于对齐。

重构后,的每个组件都从原始特征中聚合出有意义的语义,增强了表达能力。本文的模型不要求学生以像素到像素的方式重建教师特征,允许学生作为一个整体“模仿老师”。要求通过教师特征最小化L 2损失。TaT知识蒸馏的目标可以通过以下方式给出:

a7a1bf94a2af9e772e65edb0bd1e7856.png

最后,本文提出的方法的总损失可以通过以下方式定义:

82ac34717190b961ff36d8102513fb7f.png

这里的可以是一般机器学习任务上的任何损失。α、 β和ϵ是平衡损失的权重因子。

3.2. Hierarchical Distillation

该算法克服了以往一对一空间匹配方式的局限性。然而,对于大型特征映射,TaT映射的计算复杂度将变得很难解决。假设特征图的空间维数为H和W,这意味着计算复杂度将达到。

因此,作者提出了一种分层蒸馏方法来解决这个大的特征映射限制。它包括两个步骤:1)patch-group蒸馏,将整个特征图分割成较小的patch,从而从老师那里提取局部信息给学生;2) 作者进一步将局部patch总结为一个向量,并将其提取为全局信息。

9e179082124e90d477daf9a1b46e922e.png

3.2.1 Patch-group Distillation

如上所述,随着输入特征映射的空间维度增加,提取变得更加困难。一个简单的解决方案是将特征图划分为patch,并在patch中单独执行蒸馏。然而,patch之间的相关性被完全忽略,导致次优解。

因此作者提出了patch-group提取(上图(b)),允许学生从patch中学习局部特征,并在一定程度上保留它们之间的相关性。给定原始学生特征和教师特征,将其划分为大小为h×w的n×m个patch,其中h=H/n,w=W/m。它们进一步按顺序排列为g组,每组包含p=n·m/g个patch。

具体而言,group中的patch将在通道维度上concat在一起,形成一个新的尺寸为h×w×c·g的张量。这样,新张量的每个像素都包含来自原始特征p个位置的特征,其中明确包含空间模式。因此,在蒸馏过程中,学生不仅可以学习单个像素,还可以学习它们之间的相关性。直觉上,一个更大的群体将引入更丰富的相关性,但复杂的相关性将变得难以学习。

3.2.2 Anchor-point Distillation

patch-group蒸馏可以在patch层次上学习细粒度特征,并在一定程度上保持patch之间的空间相关性。然而,它无法感知长距离依赖。正如消融研究中所见,通过连接所有patch来保持整体相关性的尝试将失败。对于复杂场景,长距离依赖对于捕获不同对象的关系很重要。

作者通过提出的Anchor-point蒸馏来解决这个难题。如上图(c)所示,作者将局部区域总结为紧凑表示,称为anchor,在局部区域内具有代表性,以描述给定区域的语义,形成新的较小尺寸的特征图。由于新特征映射由原始特征的摘要组成,因此它可以近似地替换原始特征以获得全局依赖关系。

作者只需使用平均池化来提取anchor点。然后将所有anchor点分散回相关位置,以形成新的特征图。anchor点特征用于蒸馏,目标表示为。patch-group蒸馏使学生能够模拟局部特征,而Anchor-point蒸馏使学生能够学习粗Anchor-point特征的全局表示,这些特征相互补充。因此,这两个目标的结合可以带来更好的结果。综上,语义分割设计的目标可以写为:

af07b228a87bd9b5b022affea697913b.png


      04      

实验

33fef922fcd0ec267f5d44e5ac59fce9.png

为了证明本文的方法的泛化能力,作者将本文的蒸馏方法应用于各种网络结构。上图展示了在CIFAR10上图像分类的结果,可以看出,本文的想法相比于其他SOTA具有明显的性能优势。

d8a9965feadb5f5cd9e79e5779407e20.png

作者分别选择ResNet34和ResNet18作为教师和学生模型。上表中展示了学生和教师模型的最高精确度。本文的方法大大优于最先进的方法。即使没有的帮助,本文的模型在一个很小的ResNet18上也可以达到72.07%。

8177db5b069f6047c873bd8fa7414241.png

0a577c3ac77defbc99b725d0f69d8d28.png

由于在对图像分类进行提取时,特征映射的大小相当小,作者计划进一步研究本文的方法在语义分割上的泛化能力。上表分别展示了本文方法在Pascal VOC和COCOStuff10k上的语义分割实验结果。

c56ab97202a5c2f0a95e3ac69e5408cb.png

作者比较了θ(·)的不同设置,包括identical mapping与Conv+BN。Cifar100的结果如上表所示。令人惊讶的是,θ(·)的identical mapping总是表现得更好。

4f520f923ed813d5d14c041553925bb2.png

通过将θ(·)和γ(·)设置为ImageNet上的identical mapping,作者进一步研究了非参数实现(如上表)。结果表明,半参数版本的性能最好。

a03d030afe7b240016f5ec853d4eea18.png

作者进一步探索了系数ϵ的不同设置(见上图)。当从0.05增加到0.25时,目标可以带来积极和稳定的效果。

d1fdc4d7ce1cec601e27010621355300.png

上表展示了本文提出的两种蒸馏方式的消融实验结果,可以看出这两个部分的组合实现了最佳性能,表明两个目标是互补的。

6d0e32788a9507e96ec1a9202fe7d7c9.png

上表显示的结果表明,anchor-point蒸馏中,随着池化大小的增加,蒸馏计算量大大减少。另一方面,过大的池化范围会忽略有用的信息表示,并损害性能。

0c4a9e74d1ab0cf0fdbac1de14349671.png

上表显示的结果表明,patch-group蒸馏中,通常较小的patch大小有利于patch组蒸馏,但过大的patch大小可能会不利,因为它接近原始特征。

9a9e384a1fe4e38f7b42b4f3dae3b617.png

上表显示的结果表明,patch-group蒸馏中,不同group数的实验结果,可以看出,4个patch作为一个组可以达到最佳性能。


      05      

总结

本文通过目标感知transformer开发了一个知识蒸馏框架,使学生能够聚合自身的有用语义,以增强每个像素的表现力,从而使学生作为一个整体模仿老师,而不是平行地最小化每个部分的不同。本文的方法被成功地扩展到语义分割,提出了由patch group和anchor point蒸馏组成的分层蒸馏,旨在关注局部特征和长期依赖性。作者进行了深入的实验,验证了该方法的有效性,提高了SOTA水平。

参考资料

[1]https://arxiv.org/pdf/2109.11295.pdf

关注公众号,发现CV技术之美

5c1391a6717e77f396d37363e98f4040.png

END

欢迎加入「知识蒸馏交流群👇备注:KD

6ded820c6d373825016b030dba3d28de.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/17255.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

悉尼大学计算机工程专业世界排名,2019QS澳洲计算机专业排名,7所大学进入世界百强!...

原标题:2019QS澳洲计算机专业排名,7所大学进入世界百强! 说起计算机专业,很多学生会联想到好就业薪水丰厚,不仅是国内,在全球来看,计算机专业人才都非常受欢迎,所以这几年出国留学就…

澳洲转专业学计算机,刚来澳洲留学,我就想转专业!(附转专业攻略)

原标题:刚来澳洲留学,我就想转专业!(附转专业攻略) 粥粥最近遇到有朋友问: 澳洲留学可以转学或者转专业不? 这个嘛~ 相信有部分小伙伴在出国留学后, 也可能会遇到过这样的问题。 有的因为感觉专业不适合自己…

rmit计算机科学,更好的选择,更好的未来 —专访RMIT计算机科学Dr. Fengling Han

原标题:更好的选择,更好的未来 —专访RMIT计算机科学Dr. Fengling Han RMIT的计算机专业不仅在世界排名中位于前一百,在计算机行业,也因其课程实用性和雇主满意度而享有很高的声誉,本次RMIT科学工程和健康学院的中国研…

澳洲计算机设计专业大学排名,澳洲设计专业大学排名TOP5

众所周知,澳大利亚是移民大国,移民来自全球100多个国家。其丰富的移民文化使澳大利亚的艺术氛围浓厚而独特,也因此吸引着越来越多的艺术学子前来就读。那么,你知道去澳洲学设计专业可以选择哪些院校吗?下述就是美行思远…

rmit计算机科学选课,RMIT最强最全的IT Master选课指南,“鼠”于你的高分秘籍!...

RMIT的IT课程设计十分地人性化,每个学期的课程根据自身知识的储备的不同会有多个方向的选择。但是,如果对自己的了解不够深入,或者对课程的英语描述不清楚的同学很容易踩雷。所以RMIT的学霸学长根据自己的经验将每个学期的课程分别从&#xf…

手把手教你用鸿蒙HarmonyOS实现微信聊天界面(二)

简介 本系列文章记录作者大三开学第一个月中学习HarmonyOS移动应用开发学习经历,此篇为《微信聊天界面》项目,实现功能有 1、聊天信息功能,包括图片、文字 2、发送定位功能 3、选择发送本机图片功能 4、拍照并发送图片功能 如果在真机调试…

鸿蒙2.0开始推送,华为OS首次登陆手机,亮点槽点都在这里

贾浩楠 萧箫 发自 凹非寺 量子位 报道 | 公众号 QbitAI 很快啊!华为鸿蒙2.0,这就来了。 目前,鸿蒙2.0已经开放公测,不少华为用户已经开始上手体验了。 据华为消费者业务软件部总裁王成录表示,今年6月初,华为…

2023年人工智能行业研究报告

第一章 行业概况 1.1 定义和分类 人工智能(ArtificialIntelligence, AI)是一个广泛的计算机科学分支,它致力于创建和应用智能机器。在更深入的层次上,人工智能可以被理解为以下几个方面: 学习和适应:人工…

梭哈大模型,阿里云成了跟风者?

伴随AI大模型潘多拉魔盒打开,云市场GameChanger已到来。对阿里云这个昔日老大哥而言,从“领先者”变为“跟风者”,是否还有机会去重塑行业规则? 这可能是张勇全面掌舵阿里巴巴7年以来,事关未来最重要的一次“梭哈”。 …

国产AI算力芯片简介-2023年

Q:GPGPU和ASIC芯片在AI算力中分别承担什么样的角色? A:早期开放框架基于GPGPU架构实现,因此软件生态更为成熟,对于初级客户来说,上手使用更加方便。GPGPU的通用性也更好,架构更加适合AI中针对模…

美团已开始研发大模型 ;华为MetaERP全球上线;金山软件一季度净利润同比增长96%丨每日大事件...

‍ ‍数据智能产业创新服务媒体 ——聚焦数智 改变商业 企业动态 阿里云智能被曝进行组织岗位和人员优化,补偿标准为N11 近日,一位阿里云智能内部人士透露:“每年公司会进行正常的组织岗位和人员优化。此次人员调整的时间为5月份&#xff0c…

在Centos 7搭建Docker环境

一、环境部署包准备 1、Centos 7版本的操作系统并支持SSH访问 2、下载 jdk-8u60-linux-x64.rpm 3、下载 apache-tomcat-8.0.30.tar.gz 二、Docker安装 1、修改yum源,制定Docker官方的yum源 vi /etc/yum.repos.d/docker.repo [dockerrepo] nameDocker Repository…

巴比特 | 元宇宙每日必读:WPS接入AI能力,微软小冰计划年底前克隆10万虚拟人,游戏巨头如坐针毡,元宇宙应用至少有6亿月活...

摘要:元宇宙天天被“死亡”,堡垒之夜老板撰文奋起反击:元宇宙应用至少已有6亿月活用户,他们出没于Fortnite、Minecraft、Roblox、The Sandbox 和 VR Chat 等元宇宙虚拟世界中。显然,他并不认同“元宇宙已死”的说法。他…

家长必读: ChatGPT让孩子在快乐成长中收获成功!

作为一个现代的青年家长,我们都深知家庭教育的重要性以及其中的挑战。在这个快节奏的社会中,我们需要面对工作压力、时间限制以及教育资源的匮乏等问题。然而,随着科技的进步,作为万能智能助手ChatGPT将成为我家庭教育的得力帮手。…

GPT4论文翻译 by GPT4 and Human

GPT-4技术报告解读 文章目录 GPT-4技术报告解读前言:摘要1 引言2 技术报告的范围和局限性3 可预测的扩展性3.1 损失预测3.2 人类评估能力的扩展 4 能力评估4.1 视觉输入 !!! 5 限制6 风险与缓解:7 结论 前言: 这篇报告内容太多了&#xff01…

吴恩达 Chatgpt prompt 工程--1.Guidelines

课程链接 Setup #安装 !pip install openai#设置key !export OPENAI_API_KEYsk-... # or #import openai #openai.api_key "sk-..."import openai import osfrom dotenv import load_dotenv, find_dotenv _ load_dotenv(find_dotenv())openai.api_key os.geten…

使用 ChatGPT 生成代码的提示

ChatGPT 是一个真正的超能力,不仅在编写方面,而且在生成代码方面。开始使用 ChatGPT 很简单,但如果你想充分利用它,那么你需要学习如何制作好的提示。 提示是您为 ChatGPT AI 模型提供的说明或讨论主题,用于响应。它可…

招聘海报制作可以用什么软件,有什么免费模板?

眼看六月毕业季就来了,对于企业来说无疑是新的招聘黄金时间,制作一张合格的招聘海报尤为重要。一张专业的招聘海报所用的软件最佳推荐无疑就是photoshop了,但对于大多数人来说,photoshop并非一朝一夕就能熟练运用的。 因此易图网…

推荐几个好用的文字生成创意绘画软件,帮你轻松拓展创意

如果我们是一位设计师,可能需要为客户制作一些创意图画,但是如果没有足够的绘画技巧和经验,那么我们长时间的进行绘画创作可能不仅体现不出创意,还不能够让客户满意。而且有些时候会觉得自己的绘画风格比较的局限,难以…