随着深度学习在工业界的广泛应用,人们对模型的关注不仅仅在于其预测精度,同时也对计算和存储效率提出了更高的要求。在提升模型效率的诸多手段中,神经网络结构创新始终是最为有效的方式之一。
2019年12月24日上午,智源青年科学家、清华大学助理教授黄高在北京大学进行了题为《面向高效推理的深度网络结构设计》的学术报告。黄高是国内人工智能领域优秀的青年学者,其代表性成果DenseNet曾获CVPR最佳论文奖,也是世界人工智能大会SAIL先锋奖和吴文俊人工智能自然科学一等奖获得者。报告中,他回顾了卷积神经网络的典型结构、分析了有利于提升模型效率的方法与原则,从动态自适应推理的角度,介绍如何通过合理的结构设计,使模型能够针对不同的样本实现计算量的“按需分配”,达到降低平均开销的目的。本文为是黄高演讲的精彩要点介绍。
编辑:王炜强
一
深度学习:
一场沉默已久的爆发
深度学习是近年来的热门话题,应用领域包括自动驾驶、无人超市、医学影像分析等。谈到深度学习与AI的关系,经常有人将深度学习与人工智能划上等号,实际上深度学习只是机器学习中的子领域,而机器学习又是AI若干研究方向中的一个。在人工智能的研究历史中,很长时间以来传统AI研究学者甚至都将机器学习排除在AI之外。
黄高介绍,神经网络通常会被描述成一个黑盒模型。从数学角度而言,神经网络是学习一个X到Y的映射, X可以是形式多样的数据,如图像、文本、语音等,只要可以通过计算机的方式表达出的信息都可以建构成X,通过神经网络变换得到期望的输出Y。输出可以是对应于分类任务的离散值、或者对应于回归任务的连续值,也可以是更结构化的输出,例如自动驾驶中需要用到的交通标志定位与识别等任务。
神经网络并不是一个新名词,早在1957年就诞生了神经网络的雏形——Perceptron。Perceptron是线性模型,结构简单,能够完成的任务实际上非常有限。但是它提出了“学习”的概念和可操作的算法,因此是一个具有里程碑意义的工作。Perceptron与一般计算机程序的区别在于,后者的执行逻辑完全由人为给定,而Perceptron可以从数据中自动学习规则或特征,然后再应用于新的未知数据。
图1:神经网络发展历史的重要里程碑
Perceptron的提出给了人们巨大的想象空间。如果靠专家去编写规则,那么系统的上限就是人类最好专家的水平。但如果从数据里学习,只要算法足够强大,它就不受人类知识的局限。AlphaGo就是从大量的数据中去学习,靠算法学习它认为有用的特征表达与规则,而不需要专家一条一条编入规则,这就是传统的计算机程序和机器学习的区别。
但是随后人们发现perceptron能做的事情非常有限,其中很重要的原因是它仅仅是一个线性模型,而人类的决策与智慧绝对不是一个简单的线性系统。直到80年代 Back Propagation的出现才给出了训练非线性模型的方法。但因为神经网络的训练是一个非凸的优化问题,反向传播算法经常会陷入局部最优解。
90年代中期,支持向量机(Support Vector Machine;SVM)出现后,神经网络研究又逐渐陷入低潮。
图2:ImageNet Top-5 分类错误率降低轨迹
但是以GeoffreyHinton为代表的少数学者依然坚守在神经网络领域,2006年,他在《Science》上发表文章提出了深度神经网络的概念,一度产生了较大的影响。但深度学习真正的爆发是在ImageNet数据集提出后的第三年。2012年,AlexNet采用了端到端的学习方式,将ImageNet的Top-5分类错误率从25.8%降至16.4%,使深度学习开始被大家所广泛接受。2015年,错误率进一步降低到了3.57%,已经超越了人类的水平。
二
密集连接网络:
多即是少
介绍完深度学习近年来的发展历程后,黄高紧接着分享了他在神经网络结构设计方面的在研究工作。
深度学习从90年代的LeNet(YannLeCun提出来的一个用来做字符识别的卷积网络)到2012年里程碑式的AlexNet,以及之后我们听到各种各样的模型,像VGG、GoogleNet、ResNet、DenseNet,不同模型的演进也推动了深度学习的发展。那么上述这些模型之间有什么区别?黄高主要就ResNet残差网络和DenseNet模型进行了介绍。
图3:卷积网络的主要模型
从2006年到2014年,深度学习概念最初提出来的8年间里神经网络只发展到20多层,但在2015年突然突破了100多层,并且只是经过了结构上很小的改进,这说明网络结构对深度学习模型的影响非常大。
传统神经网络无法变深的一个主要困难就是梯度消失问题。残差网络ResNet通过引入跳层连接,直接把某一层的输入直接加到输出上,通过这样一个很小的改进,可以让模型突破一百层,甚至可以提高到一千多层。
黄高随后介绍了其研究团队提出的随机深度网络(Stochastic Depth Network)。即在训练ResNet的时候,每个MiniBatch都随机拿掉一些层,因此网络的深度实际上在随机发生变化。仅仅通过这个小的改进,可以使ResNet的泛化性能产生一个显著的提升。基于随机深度网络,我们成功训练了深度达到1202层的残差网络,将CIFAR-10的分类错误率降至4.9%。这说明随机深度网络可以帮助训练更深的网络,并且避免过拟合现象。
图4:随机深度网络模型
那么随机深度网络带给我们什么启发呢?它实际上说明卷积网络中存在大量的冗余性,使得我们可以去掉网络的一些层而不影响网络的正常工作。冗余性对于提升网络的泛化性能和鲁棒性是有帮助的,但是在实际应用中会消耗过多的计算资源。
DenseNet的初衷就是希望降低网络中不必要的冗余计算,通过密集连接实际网络特征重用。这样设计出的模型,虽然看起来连接增加了很多,但实际上是在减小通道的基础上增加连接,所以网络反面变得更加紧凑。
黄高介绍,2018年马里兰大学一个团队对神经网络的损失函数曲面进行了可视化。损失函数曲面即损失函数随着网络参数变化而变化的趋势,对神经网络进行训练就是在这个曲面上寻找一个最低点。他们发现VGG网络的损失函数曲线较为崎岖,加上了残差连接之后的ResNet就变得光滑很多,而DenseNet的损失函数曲线就类似一个凸函数。这个研究告诉我们不同网络结构对于训练的难度影响是非常大的,不同的网络结构会有很不一样的优化性质。
图5:不同网络结构的损失函数曲面
三
自适应网络:
主动适应样本
演讲的第三部分,黄高与观众一起探讨了动态网络(或自适应网络)的发展。从2012年以来,深度学习模型的分类准确率一直在稳步的提升,但模型的计算复杂度也越来越高。其中一个很重要的原因就是网络结构是静态的,即模型训练好之后,其大小就不能再发生变化。使得深度网络为了正确预测少量“较难”的样本,不得不增大模型的大小,从而在“简单”的样本上浪费了大量计算。
动态网络的思想就在于探索一种可以根据外界输入的不同而变化自身结构或者参数的模型。因此可以实现用较小的模型去处理简单的图片,用较大的模型去处理难的样本。
黄高随后介绍了其团队提出的一种动态神经网络Mutil-Scale DenseNet (MSDNet)。MSDNet对卷积神经网络进行了重新设计,提出了一种深度与尺度分离的二维网络结构。在这个网络上取中间特征构建分类器,可以保证所有的分类器的特征都经过了充分下采样,从而得到一个较好的分类效果。该网络训练好之后,在推理的过程中,先计算网络的第一个分类器,观察其置信度并与设计好的阈值去进行比较。如果置信度达不到阈值再对第二个分类器进行计算,以此类推一直计算到某个分类器的置信度大于给定的阈值。可以看到在这个网络上,每个样本都有一个自己的计算图,其深度会根据输入的不同而变化,所以称之为动态网络。它与静态网络最大的不同是能够主动去适应样本。
该网络可以实现相对于静态网络2-5倍的提速,大幅降低网络的计算冗余性。同时该网络还有一个很大的优点就是能够根据环境需要动态调整计算负荷。
图6:动态神经网络MSDNet的实验结果
最后黄高还介绍了三种更好地训练该网络的技巧:一,对梯度进行缩放,降低累加梯度的方差,使训练更加稳定;二,采用知识蒸馏方式,因为网络后面的准确率会较高,自然而然用更深层的分类器去帮助前面的分类器进行学习;三,使用特征重用的机制,让浅层学好的一些特征,可以直接传给深层分类器使用。
- 往期文章 -