论文阅读笔记：Towards Higher Ranks via Adversarial Weight Pruning

1 背景
2 创新点
3 方法
4 模块
- 4.1 问题表述
- 4.2 分析高稀疏度下的权重剪枝
- 4.3 通过SVD进行低秩逼近
- 4.4 保持秩的对抗优化
- 4.5 渐进式剪枝框架
5 效果
- 5.1 和SOTA方法对比
- 5.2 消融实验
- 5.3 开销分析
6 结论

论文：https://arxiv.org/pdf/2311.17493

代码：https://github.com/huawei-noah/Efficient-Computing/tree/master/Pruning/RPG

1 背景

虽然结构化剪枝可以带来较大的运行时加速收益，但其性能远低于非结构化剪枝。

在高度稀疏的情况下，作者观察到非结构化剪枝会退化成结构化剪枝。当权重具有较大比例的零时，极有可能出现一个结构化的模式，其中整个通道或滤波器几乎被完全剪枝。因此，现有的权重剪枝方法在高稀疏度下会遇到性能急剧下降的情况。

作者通过比较两种剪枝方法受到启发，提出在权重剪枝中减少结构模式。结构化剪枝实际上是深度卷积网络中权重秩的降低，因此可以采用秩作为平衡非结构化稀疏权重“结构化”程度的指标：如果一个系数权重的秩较低，则认为它是高度结构化的。为了避免非结构化剪枝过于结构化，希望在剪枝时保持高稀疏度下的权重秩。

2 创新点

基于秩改进的目标，作者提出了一种基于对抗秩的剪枝方法（Rank-based PruninG, RPG）。

3 方法

在这里插入图片描述

首先，通过最小化近似误差来找到权重的低秩近似。通过奇异值分解找到最佳低秩逼近。其次，为了提高权重秩，最大化权重与其低秩对应的权重之间的距离来提高权重秩。这种基于对抗秩的优化目标将稀疏权重引导到一个高秩拓扑上。所提出的方法以逐步修剪的方式进行，以稳定训练过程中的秩变化。通过在图像分类和下游任务上的大量实验评估了所提出的RPG方法的优势，图1表明，与基线相比，本文方法获得了矩阵秩优势。
在这里插入图片描述

4 模块

4.1 问题表述

在传统的有监督神经网络学习方面，给定一个目标损失函数 $L$ ，神经网络权重 $W$ 和输入输出对 $X=\{x_i\}_{i=1,…n},Y=\{y_i\}_{i=1,…n}$ ，神经网络权重 $W$ 训练过程可表述为：
在这里插入图片描述

权重剪枝限制了权重 $W$ 中非零权重的总数，或者在数学意义上，权重剪枝对神经网络施加 $l_0$ 范数约束。给定稀疏度预算，约束描述为：
在这里插入图片描述

一种常见的做法就是用权重张量 $W$ 和二值化掩膜 $M$ 计算点积重参化权重 $W$ 。二值化掩码 $M$ 具有与 $W$ 相同的形状，M中的每个元素代表其在 $W$ 中的对应参数是否被剪枝。在重参化后，权重剪枝问题被形式化为：
在这里插入图片描述

在非结构化剪枝的高稀疏度下，稀疏网络的秩可能会大幅降低。

4.2 分析高稀疏度下的权重剪枝

非结构化剪枝和结构化剪枝是两种主要的剪枝方法。在非结构化剪枝实践中，CNN的权重张量以细粒度的方式被剪枝：每个孤立的权重参数可以在网络内部关闭(即设为零)，但整个权重张量结构保持不变。相比之下，结构化剪枝侧重于过滤器的剪枝：过滤器作为剪枝过程中最小的可剪枝单元被截断。通过比较相同稀疏度预算下的两种剪枝范式，说明在相同的剪枝预算下，非结构化剪枝比结构化剪枝的效果要好得多。

这一现象可以从矩阵秩的角度进行解释。实际上，结构化剪枝是对权重矩阵的直接降秩，即过滤器剪枝本质上是低秩的权重剪枝。矩阵的秩表示矩阵所包含信息量的上界。一个强大的网络应该具有丰富的信息，作者希望稀疏网络的特征具有较高的秩。特征的秩与稀疏权重矩阵的秩密切相关，因为式（2.4）描述了矩阵乘法中秩的关系：
在这里插入图片描述从式中可以看出，当直接影响权重 $W$ 的秩进行过滤器剪枝时，输出特征的秩也会降低，从而导致信息丰富度急剧损失。另一方面，非结构化剪枝摆脱了过滤器剪枝的结构约束，从而保留了更多的信息量。

当稀疏度较高时，非结构化剪枝部分退化为结构化剪枝。当权重被大比例的填充零时，形成“准结构化”的稀疏权重模式。图1中矩阵秩的基线评估说明了这一问题。因此，现有的权重剪枝方法在高稀疏度下通常会遇到性能急剧下降的情况。受两类剪枝性质的启发，作者提出在非结构化剪枝中减少结构化模式，从而在高稀疏度下保持权重排序。

4.3 通过SVD进行低秩逼近

既然权重的秩在权重剪枝中很重要，那么就需要一种方法来计算深度神经网络中的秩。由于权重值总是离散的，作为备选解，作者收敛到一个近似的秩，而不是计算一个精确的秩。因此，定义近似秩如下：

定义1（矩阵的 $\delta$ 秩） : 给定一个矩阵 $W$ 和一个小的误差容忍度 $\delta>0$ ， $W$ 的 $\delta$ 秩定义为最小的正整数 $k$ ，使得存在一个 $k$ 秩矩阵，它到 $W$ 的 $l_2$ 距离小于 $\delta$ 。

在之前的工作中，秩是通过奇异值分解计算奇异值来评估的。作者利用SVD计算定义1中的 $\delta$ 秩。首先，说明SVD可以产生最佳的低秩近似：

定理1（最佳低秩近似）：假设 $W$ 通过SVD分解，并令 $W=\sum_{i=1}^r\sigma_iu_iv_i^T$ ，其中奇异值 $\{\sigma_i\}$ 按降序排序。给定整数 $k < r$ ， $W$ 的最佳 $k$ 秩逼近，即与 $W$ 有最小 $l_2$ 距离的 $k$ 秩矩阵为：
在这里插入图片描述

由于SVD可以得到更好的低秩逼近，可以利用这个性质来求解定义1中的 $\delta$ 秩。给定权重矩阵 $W$ ，寻找最小的 $k$ 使得最佳 $k$ 秩逼近 $\widetilde{W}$ 的 $l_2$ 逼近误差小于误差容忍度 $\delta$ 。附录有给出证明。
在这里插入图片描述

4.4 保持秩的对抗优化

与低秩逼近不同，高秩矩阵是低秩矩阵难以逼近的。只要 $W$ 保持它与最佳低秩逼近的距离，就可以增加它的秩。因此作者设计了一种对抗机制，增加 $W$ 被低秩矩阵逼近的难度，从而在剪枝时提高 $W$ 的矩阵秩。首先，通过奇异值分解生成低秩 $k$ 的最佳低秩近似矩阵 $\widetilde{W}$ ，以最小化 $\widetilde{W}$ 到 $W$ 的距离。然后，对 $W$ 进行优化，增加 $W$ 与 $\widetilde{W}$ 的距离。这个过程可以理解为 $W$ 与 $\widetilde{W}$ 之间的对抗，当低秩的 $\widetilde{W}$ 试图拟合 $W$ 时， $W$ 被优化以保持自身原理 $\widetilde{W}$ 。从数学上讲，这个对抗可以被表述为一个 min-max 问题。

但不幸的是，这个问题可能面临着无法收敛的风险。因为当 $\widetilde{W}$ 固定时， $W \to \infty$ 最佳。为了在优化过程中解决这个问题，作者将 $W$ 限制在一个欧式范数球内。换句话说，作者将 $\frac{W}{||W||_F}$ 代替 $W$ 代入问题。这里使用 $l_2$ 标准化的原因是：1. $W$ 是有界的，而不是增长达无穷大的；2.在优化 min-max 问题时，如果对 $W$ 进行 $l_2$ 归一化， $W$ 的秩可以增加（定理2中有证明）。3.对权重进行 $l_2$ 归一化等价于对其奇异值进行 $l_2$ 归一化，在给定固定误差容忍度的情况下，根据定义1中秩的定义，为秩提供了比较公平的准则。

在介绍这个 min-max 问题之前，引入几个符号： $_F$ 是矩阵的2范数。 $I$ 是恒等矩阵， $\overline{W} := \frac{W}{||W||}$ 是 $l_2$ 标准化权重矩阵 $W$ ， $\Sigma, V$ 为 SVD 分解 $W$ 得到的矩阵，其中 $U=\{u_1,u_2,…\}$ 和 $V=\{v_1,v_2,…\}$ 为正交基， $\Sigma$ 为对角矩阵，其中奇异值 $\{\sigma_1,\sigma_2,…\}$ 在对角线上按降序排列。算子 $Trun(U\Sigma V^T)=\sum_{i=1}^k\sigma_iu_iv_i^T$ 表示 $k$ 阶截断SVD，或 $W$ 的 $k$ 阶最佳逼近。min-max问题形式化的表示如下：
在这里插入图片描述
优化目标被定义为对抗秩损失：

在这个情况下，作者提出如下定理，即对抗秩损失可以引导权重 $W$ 向更高阶的方向移动：

定理2（对抗秩损失的有效性）：给定方程( 2.6 )中定义的对抗秩损失，如果通过梯度下降来优化秩损失中的W，那么W的秩将会增加。（附录有给出证明）
在这里插入图片描述

利用提出对抗秩损失，优化目标包括两个方面：1. 针对某个任务（如分类，检测等）减少损失，已提高稀疏网络的性能；2.通过减少秩损失来获得更高的权重秩。给定复合超参 $\lambda$ ， Rank-based PruninG(RPG)的优化目标 $L$ 可以定义为：
在这里插入图片描述

4.5 渐进式剪枝框架

之前的工作已经提出了各种剪枝框架，作者认为渐进式剪枝（Gradual Pruning,GP）可以再适中的训练预算下达到更好的性能，所以将其作为剪枝框架。GP在每次训练过程中修剪掉一小部分权重，试图通过迭代的“剪枝和训练”过程来保持稀疏的网络性能。

本文的PRG方法过程如下：没经过 $\Delta T$ 就执行更新二进制掩码M的剪枝-生成过程，使得经过掩码更新后，整个网络在当前迭代时达到目标稀疏度。随着训练的进行，目标稀疏度会逐渐增加，这与GP相同。其次，对所有参数进行基于重要性的全局排序（代码里使用L1范数），并执行剪枝。最后，基于梯度进行参数生成。对于其他训练步骤(指出了剪枝阶段的finetune阶段)，掩码M保持不变，对活跃的权重值进行更新。具体见算法1。
在这里插入图片描述

关于基于梯度进行参数生长代码如下：

score_grow = self.backward_hook_objects[l].dense_grad
score_grow = torch.abs(score_grow)
score_grow = score_grow.view(-1)
# mask1是二值化掩膜，形状和M一样，权重的L1范数前α比例的位置为1，其他位置为0
score_grow_lifted = torch.where(mask1 == 1,   torch.ones_like(mask1) * (torch.min(score_grow) - 1),score_grow)
# mask2是二值化掩膜，形状和M一样，score_grow_lifted前α比例的位置为1，其他位置为0
mask_combined = torch.reshape(mask1 + mask2, current_mask.shape).bool()

5 效果

5.1 和SOTA方法对比

在InageNet上，不同稀疏度剪枝下的效果如表2。
在这里插入图片描述

在ImageNet上的计算量和准确率如图3。
在这里插入图片描述

Deep Sparse是最近提出的一种CPU上的稀疏加速框架。将ResNet50在Deep Sparse上进行时间稀疏。在CPU上的准确率和耗时如表3。
在这里插入图片描述

对MaskRCN进行剪枝后在COCO val2017数据集上的效果如表4。
在这里插入图片描述

对基于transformer的模型，本文的方法虽然没有专门为注意力机制设计，但在DeiT-S上也取得了很好地效果，如表5。

在这里插入图片描述

5.2 消融实验

关于超参 $\lambda$ 的消融实验，如图4。

在这里插入图片描述

5.3 开销分析

RPG涉及昂贵的SVD计算。然而，作者进行了实验，并说明在时间和FLOP方面，SVD在剪枝过程中所占的成本开销非常小。如表6所示，SVD计算的总体时间和FLOPs仅占整个RPG剪枝成本的< 2 %。作者还比较了RPG与其他剪枝方法的FLOPs开销。从表7可以观察到，与基线相比，本文方法是最具有成本效益的。最重要的是，秩损失计算带来的额外开销并不是一个值得关注的问题。

在这里插入图片描述