DenseNet发明者黄高:动态模型好在哪里?

智源导读:自2012年至今,计算机视觉领域蓬勃发展,各种模型不断涌现,短短 8 年时间,计算机视觉领域便发生了天翻地覆的变化。那么如何看待过往变化,当下研究又如何?

 

12月10日晚,在【青源Talk】第 3 期上,清华大学助理教授,智源青年科学家黄高将计算机视觉中的深度神经网络结构设计从2012年至今的发展,划分为三个阶段,并分析了各个阶段的特点:

-> 2012-2015,为快速发展期;

-> 2015-2017,为成熟期;

-> 2017-至今,为繁荣期。

在此之后,黄高重点讲解了当下 CV 深度模型设计领域的两大研究方向,NAS 和动态网络,特别是后者。听其报告,我们能够感受到黄高的工作优美、简单且自然。

在演讲之后的交流中,黄高向与会的学生们强调了一条科研经验:研究需要韧性。

本文根据演讲内容整理,供读者参考。报告视频及PPT下载地址:

https://hub.baai.ac.cn/view/4937

整理:贾伟、周寅张皓

校对:廖璐

黄高 · 简介

黄高是清华大学自动化系助理教授,博士生导师。2015年获清华大学博士学位,2015年至2018年在美国康奈尔大学计算机系从事博士后科研工作。主要研究领域为深度学习和计算机视觉,提出了主流卷积网络模型DenseNet。目前在NeurIPS,ICML,CVPR等国际顶级会议及IEEE多个汇刊共计发表学术论文50余篇,被引用18000余次。获CVPR最佳论文奖、达摩院青橙奖、世界人工智能大会SAIL先锋奖、中国自动化学会优秀博士学位论文、全国百篇最具影响国际学术论文、中国人工智能学会自然科学一等奖和吴文俊优秀青年奖等荣誉,入选智源青年学者计划。

 

01

视觉模型的发展

 

在过去一些年里,计算机视觉领域涌现出许多经典的深度学习的网络架构。这说明网络的架构在深度学习(计算机视觉)中尤为重要。原因是什么?

 

黄高认为网络架构的重要性体现在四个方面,分别为:表达能力、优化特性、泛化性能和计算/存储效率。

  • 表达能力:不同网络结构,其表达能力显然不同。举例来说,线性模型,无论多深,仍然只是线性模型,其表达能力有限。

  • 优化性能:ResNet出现之前,所谓的“深度网络”并不很深,当时最深的GoogleNet、Inception等也仅 20 多层。这并非当时硬件不足,主要原因是梯度反传过程会出现梯度消失问题。ResNet以及后续的DenseNet通过结构上的改进,可以很好地改善这种问题。

  • 泛化性能:从本质上来说,神经网络是一个函数,训练网络即是拟合。网络的结构定义了函数的特性,同时也关系到它的泛化能力。

  • 计算/存储效率:当达到同样精度时,有的模型需要很大,有的模型却比较小;有的模型消耗计算资源很高,有的模型却相对要小得多。

 

02

神经网络结构三个阶段

 

从2012年至今,计算机视觉领域的深度学习网络模型经历了天翻地覆的变化。如何看待这些变化?

 

黄高将这 8 年多的黄金时期划分为三个阶段,分别为:2012-2015,快速发展期;2015-2017,成熟期;2017-至今,繁荣期。

 

如下图所示:

 

2012-2015的快速发展期:2012年,AlexNet在ImageNet比赛中一举挑战各种传统模型,让大家意识到深度学习在视觉任务中的潜力,从而掀起了一股研究热潮。随后不断涌现的很多深度模型都是围绕ImageNet进行设计,包括后来的VGG、GoogleNet等。这一阶段发展非常快速,每种模型都是从各自的角度对优化特性、泛化能力等进行改进。

 

2015-2017的成熟期:这一阶段的标志性事件是ResNet的提出。ResNet的跳层连接思想给大家带来了极大的启发,让模型设计有了一个明确的概念指引,于是迅速出现了诸如DenseNet,ResNeXt等知名模型。这个阶段,研究者逐渐认识到,模型设计并不需要过多的技巧和变化,存在一些简单而基本的设计原则可以依据。

 

2017年至今的繁荣期:17年之后,深度学习在工业界的应用变得更加广泛,于是针对不同的应用场景,便出现了不同角度的模型设计和优化。目前研究较热的方向包括面向边缘端的轻量级模型、网络架构搜索(NAS)、动态模型、Transformer等。

 

03

网络架构搜索的 What and How

 

自动架构搜索(Automatic Architecture Search)的本质是让算法自己去设计网络架构。自Google的NAS(Nerual Architechure Search)方法提出后,NAS逐渐成为备受关注的研究领域,研究者们希望能够从模型设计开始降低人工干预程度,最终实现机器的自动学习(Auto-ML)。现在有一个专门的网站(www.automl.org)汇总该方向上的相关研究。

对比以下模型,最左边(ResNet)为手工设计模型,右边三个(GENet、NASNet、ENASNet)为结构搜索后得到的模型。从直观上可以看出,人工设计模型相对比较规整,而搜索得到的模型则一般比较复杂。

NAS是将模型设计转化为搜索问题,通过在定义的模型搜索集中寻找最优的参数配置实现结构设计。因此,搜索集的定义往往是NAS任务的关键。

 

其次,在确定搜索集后,需要选择合适的搜索算法。当前的搜索方法主要有:强化学习方法(NASNet, Progressive NAS)、进化算法与遗传算法(GeNet,AmoebaNet)、可微分方法(DARTS,Fbnet)等。

 

另外,模型评估为搜索的结果提供可靠的比较依据。往往评估模型达到一定精度所需的计算量,以此评价模型的优劣。方法目前也存在一些问题,例如理论计算量与实际应用时存在偏差。

 

因此,网络架构搜索主要有四个核心问题:

 

1、搜什么:定义搜索问题。

2、从哪里搜:定义搜索空间;

3、怎么搜:设计搜索算法;

4、如何评估:说明搜索对象。

 


04

动态神经网络

在2017年之前的主流深度模型都属于静态模型,一旦训练结束,其参数和结构便固定了下来。这种模型的缺点是,设计上一步到位,但在应用时却无法根据具体需求而做调整。

 

1、Small - Easy,Big - Hard

 

如上图所示,从12年至17年,模型在数据集上的准确率逐步提升,但这种提升的背后,则是计算量的巨大开销,往往为了提高零点几个点,模型便需要增加几十层。这给我们导致了一个印象,认为模型越大性能越好。

 

但大模型相比小模型,到底好在哪里?

 

黄高认为:Bigger Models are needed for those noncanonial images.

 

如上图所示,尽管数据集中有大量“正常”【马】的照片,但由于数据的长尾分布特点,必然会存在一些非常规的图片。若想将这些非常规图片正确预测出来,神经网络在特征提取上就需要有更丰富、更高级的特征。但这里存在的问题是,大多数图片可能仅需少量层的网络便可以正确识别出来;但为了处理极少数非常规的图片,却需要耗费大量的算力。

 

所以,我们为什么要用相同的代价来处理所有的图片呢?

 

换句话说,我们是否可以用小且便宜的模型来处理容易识别的图片,用大且昂贵的模型处理难识别的图片呢?

 


 

按照这种初始的想法,存在一个问题,即在现实中没有一个“上帝”告诉模型,哪张图是容易的,哪张图是难的。

 

黄高等人提出一种多尺度的DenseNet模型,如下图所示,模型中包含许多分类器在中间提取特征并做分类,然后在每个出口做一次判断,预测值大于阈值,那么就输出判断;而如果小于阈值,便送入下一层分类器继续计算,直到预测值大于相应阈值。

 

这种模型,相比于DenseNet,同样的性能可以做到2~5倍的提速。

 


可视化结果:

 



 

这个工作中一个亮点在于,阈值是可以设定的,这种特点非常适用于边缘设备。阈值越低,精度相应也就相对降低,但模型运算速度却能够变得更快;反之,阈值越高,精度越高,速度则变慢。对于边缘设备,传统的静态模型在训练好后,精度是固定的,计算时间是固定的,耗电量也是固定的。作为对比,动态模型的好处在于,当设备电量较低时,可以将阈值调低,从而以牺牲一点精度的代价去换取更长的电池续航时间,从而在精度和电量之间做一个自适应平衡。

 

在黄高等人近期的一项最新工作中,他们将这种思想做了进一步的拓展——分辨率自适应。简单来说,在不同的图片中,有的识别物体占比较大,而有的则较小。(如上图两张猫头鹰的图片)那么如果识别物体占比较大,用分辨率低一些的图片就足以完成识别任务;如果识别物体占比较小,可以选择更高清一些的图片。

 

具体如下图所示,先用低分辨率图片进行计算,如果置信度高于阈值,则输出结果;如果低于阈值,则使用更高分辨率的图片、更深的网络进行计算,直至置信度大于阈值。

 


  

2、更进一步:空间自适应

 

前面提到的自适应主要是样本级别的自适应,针对与图像数据还可以考虑空间维度的自适应。

 

如下图所示,人的视觉会关注不同的空间区域,比如街道,车辆,行人;但是对于另外的窗台,花纹,则会选择性忽略。这说明人在看一张图片时,并不会在所有的像素上投入同样多的精力。但现有网络的卷积操作,并不能适应图片的空间信息,而是简单地对图片的不同区域做同样的处理。


黄高针对这一问题,提出了 Sampling and Interpolation 的方法。正如其名,该方法先进行稀疏采样和计算,然后通过插值的方式进行稠密重建。如下图所示:

 


 

具体方法则是:对于输入 X,并不直接进行卷积计算获取其特征,而是先进行稀疏采样,将采样结果进行稀疏卷积,从而获得一个稀疏的特征图;根据稀疏特征图进行插值后获得重建特征图。

 

 

这里关键的一点在于,采样的模型并非随机采样,其参数是可学的,依赖于数据,因此对于不同物体,生成的mask则不同。mask事实上告诉了模型哪些区域应该重点关注,从而指导SparseConv去计算;SparseConv并不会提取所有像素的特征。


 

黄高等人的另一项关于空间自适应的工作,发表在NeurIPS 2020 上。他们注意到,人在做视觉识别时,是一个渐进、迭代的过程。例如看一张图,我们初步瞥一眼,知道它是一只鸟;然后我们会更加关注它的头部、身体、尾部等,从而获取更多的特征。

 


依据这种思想,黄高等人提出了GFNet(Glance and Focus Network),基本思想如下图所示,通过降低图像分辨率来模拟最初的glance,如果模型预测置信度不够,则通过使用局部的图像模拟人仔细观察获得信息,丰富模型观察到的细节。

 


 

具体模型框架如下:

 


 

值得强调的是,模型中所采用的都是通用框架,因此从理论上说,可以在方法中兼容任何已有的深度网络(手工设计的或搜索出来的)。

 

实验结果如下:

 


 


 

05

研究需要韧性

 

报告之后,黄高与现场的学生进行了线下问答交流。

 

在交流中,黄高多次强调这样一个观点:“研究需要韧性。”

 

他提到:当初在有DenseNet想法时,并不被周围的人看好;但他和合作者一直坚持把结果做了出来,最终证明了这项工作的价值。

 

黄高工作中的韧性自很早的时候就有所展现。2009年前后,在AI领域,深度学习的工具并未如此普及,优化方法、梯度回传这些在现在看来简单到仅仅需要一行代码的操作,在那时黄高的工作中,都需要一次次手动实现。因此,那时候的研究者都在想着如何节省算力缩减模型连接,以减少工作量。但当时黄高便已有另外的思考:如果每层的信息都能逐层向前传,那模型的信息通道将更加通畅,那么虽然每层连接变多,传递底层信息到高层所需的模型层数就可以大大减少。这一想法,也启发了他后来对 DenseNet的设计。

 

黄高说,当初在DenseNet获得最佳论文的推特下,很多人惊讶于模型想法的简洁优美,但同时,也有许多研究者表示惋惜,因为或多或少曾经也有过这样的思考,但由于缺乏动力,或者是遇到挫折,没能坚持推进研究。

 

在交流的最后,主持人刘知远副教授问到:“如果给在场的学生一句take away message,你会说什么?”

 

黄高思考良久,仍然坚定地说:“研究是需要韧性的。我相信在场的大家都十分优秀,但做研究,遇到挫折是常态,一个好的想法中途会有太多因素让它夭折,但最终需要的是一股韧劲才能坚持下来,将想法化为现实。”

 

参考论文

[1] Huang, Gao, et al. "Densely connected convolutional networks." Proceedings of the IEEE conference on computer vision and pattern recognition. 2017.

[2] Wang, Yulin, et al. "Glance and Focus: a Dynamic Approach to Reducing Spatial Redundancy in Image Classification." Advances in Neural Information Processing Systems 33 (2020).

[3] Huang, Gao, et al. "Multi-scale dense networks for resource efficient image classification." arXiv preprint arXiv:1703.09844 (2017).

[4]Xie, Zhenda, et al. "Spatially Adaptive Inference with Stochastic Feature Sampling and Interpolation." arXiv preprint arXiv:2003.08866 (2020).


点击左下角“阅读原文”,下载PPT!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/65130.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

对话 DenseNet 一作黄高:做有韧劲、能抗压、不断探索未知的科研

点击上方“计算机视觉工坊”,选择“星标” 干货第一时间送达 作者丨刘冰一 来源丨极市平台 清华大学助理教授、密集连接卷积网络 (DenseNet)提出者 、计算机视觉领域一作顶会论文被引次数最高的国内学者、百万青橙奖奖金获得者..... 这些标签…

测试工程师的好日子来啦?Testin发布AI测试产品,提升易用性和自动化效率

2019年10月26日,以"AI未来"为主题的第二届NCTS中国云测试行业峰会在北京国际会议中心正式开幕。在本次大会上,Testin 总裁徐琨正式发布测试业务Testin云测的全新AI产品iTestin。作为 Testin 人工智能战略中的重要一环,iTestin 融合…

【CodingNoBorder - 07】无际软工队 - 求职岛:ALPHA 阶段测试报告

无际软工队 - 求职岛:ALPHA 阶段测试报告 项目内容这个作业属于哪个课程2022年北航敏捷软件工程这个作业的要求在哪里团队项目-Alpha阶段测试报告我们在这个课程的目标是熟悉敏捷开发的方法论,并通过实际开发产品进行实践。这个作业在哪个具体方面帮助我…

pytest测试报告Allure - 动态生成标题生成功能、添加用例失败截图

一、动态生成标题 默认 allure 报告上的测试用例标题不设置就是用例名称,其可读性不高;当结合 pytest.mark.parametrize 参数化完成数据驱动时,如标题写死,其可读性也不高。 那如果希望标题可以动态的生成,采取的方案…

❀YOLOv5学习❀图像标注工具LabelImg的下载,配置和使用。

LabelImg是图形图像注释工具。它是用Python编写的,并将Qt用于其图形界面。批注以PASCAL VOC格式(ImageNet使用的格式)另存为XML文件。此外,它还支持YOLO格式。下载这个,主要是为了YOLOv5中,做自己的数据集&…

brat事件标注平台使用教程

事件图谱首先涉及到的是事件标注,我采用的是brat事件标注平台,该平台使用的是Linux系统,因为我的电脑是windows系统, 将brat安装在了linux虚拟机(Ubuntu)上。 一.下载与安装 1.下载brat 进入brat官网brat…

OpenAI 成近期顶流团队?如何使用 OpenAI 和 Node.js 构建 AI 图像生成器?

摘要: 12月7号,知名人工智能研究机构 Open AI 在Youtub上发布视频介绍使用OpenAI 和 DALL-E 模型创建一个网络应用程序,该应用程序将根据输入的文本从头开始生成图像。https://www.youtube.com/watch?vfU4o_BKaUZE 前言💖 大家好&#xff0…

AI 自动写代码插件 Copilot(副驾驶员)

AI 自动写代码插件 Copilot 提示:Copilot单词直译过来就是副驾驶员的意思。 介绍:本质上就是基于GitHub开源的亿级别的代码,训练AI模型,自动生成代码。 就是数据量(GitHub的数据量就很大!)能够决定你AI模型精度的上…

软件测试中的AI——运用AI编写测试用例

文章目录 一、现状二、测试技术可结合AI的几个方向三、尝试使用AI编写测试用例(实验过程)1、AI联系上下文的能力弱2、回答的内容类似于能在网上搜索到的内容3、需要有一个明确的指令4、输出内容有限5、无法想象到需求描述之外的内容 四、总结&#xff1a…

AI热度降温?揭秘加德纳技术成熟度曲线与AI发展阶段

一文解决你所有对 AI 的焦虑 近期,我们发现ChatGPT的热度似乎不如前几个月。许多人尝试了这个技术,觉得它非常强大,但似乎与自己的日常生活和工作关系不大,因此逐渐失去了兴趣。 然而,这实际上是技术发展的正常周期&…

王炸赚钱组合!!ChatGPT + AI大模型

“ 你近期有体验过哪些大模型产品呢? 你有使用大模型API做过一些实际开发吗? 在你日常开发中,可以与大模型相关应用结合来完成工作吗? ” 从去年底开始,大模型的发展趋势就非常迅猛,这也代表着人工智能进入…

ChatGPT + AI大模型 = 王炸!!!

“ 你近期有体验过哪些大模型产品呢? 你有使用大模型API做过一些实际开发吗? 在你日常开发中,可以与大模型相关应用结合来完成工作吗? ” 从去年底开始,大模型的发展趋势就非常迅猛,这也代表着人工智能进入…

ChatGPT+低代码,好用到飞起?

ChatGPT 凭借短短 2 个月,月活用户突破 1 亿,成为史上用户增长速度最快的消费级应用程序。ChatGPT 的爆火,在全球范围内掀起了一场关于 AI 技术革命的狂潮,AIGC 也迅速成为科技圈最火赛道。 更有国际咨询机构预测,203…

信用卡兴趣人群洞察报告.pdf

男性用户对信用卡的关注度显著高于女性 信用卡兴趣人群年龄集中在24-40岁,与主流消费人群相吻合。41岁以上人群信用卡关注度明显滑落 深广信用卡关注度最高,占据前四名知州、西安等中西部城市占据前十名中半数名额 信用卡兴趣人群高度集中于iPhone手机,其次分别为三星、魅族…

关于程序员的调查报告

最近Stack Overflow发布一份开发者调查报告,内容涵盖了开发人员最喜欢的技术到工作偏好等等各种问题。下面小编就带大家一起来看一看。 NO.1 最常用的的编程语言: 我们发现Python的使用度今年超过了Java,Python的势头有点猛啊!&am…

c语言进行数据统计分析的研究报告,统计分析报告范文

统计分析报告范文 大家都知道,统计分析的写作是为了制作统计分析文章。在统计部门,统计分析文章则称为统计分析报告。下面是一篇统计分析报告范文,欢迎阅读! 统计分析报告范文 【目录】 一.引言 二.研究目的 三.数据分析 I.对能源生产及构成的…

论文阅读报告

0 2022/6/23-2022/6/25 1. FLAME: Taming Backdoors in Federated Learning 1.1 本文的贡献 我们提出了FLAME,这是一种针对FL中后门攻击的防御框架,能够消除后门而不影响聚合模型的良性性能。与早期的后门防御相反,FLAME适用于一般对手模型…

「市场调研」简说

1. 外部因素评价矩阵EFE EFE矩阵可以帮助战略制定者归纳和评价经济、社会、文化、人口、环境、政治、政府、法律、技术以及竞争等方面的信息。 建立EFE矩阵的五个步骤如下:  1) 列出在外部分析过程中所确认的外部因素,包括影响企业和其所…

《用图表说话》读后感

《用图表说话:麦肯锡商务沟通完全工具箱(珍藏版)》在我的必读清单里,推荐过很多次,也是之前送书活动中的书目,今天就来总结一下这本书到底讲了个啥。(知识图谱在文末,想要高清图片可…

微信读书产品调研报告

在信息爆炸时代,还是有一些人通过阅读书籍的方式静下心思考,静心提升自己的。而电子阅读产品也是互联网时代下的特色与产物,在竞争激励的电子阅读产品市场中,微信读书也正凭借着高质量的产品设计赢取用户的称赞与信赖。 微信读书产品调研报告 产品名称:微信读书 产品版…