论文阅读——Adversarial Eigen Attack on Black-Box Models

Adversarial Eigen Attack on Black-Box Models

作者：Linjun Zhou， Linjun Zhou

攻击类别：黑盒（基于梯度信息），白盒模型的预训练模型可获得，但训练数据和微调预训练模型的数据不可得（这意味着模型的网络结构和参数信息可以获得）、目标攻击+非目标攻击
白盒+黑盒组合使用，白盒利用了中间表示，黑盒利用了输出得分。

疑问
Q1: 基于梯度信息生成对抗样本，如何保证迁移能力
A1: 似乎没有像常规方法一样考虑迁移性
Q2: 预训练模型选的啥？
A2: 用不到预训练模型

解决的问题：

替代模型的训练需要已知训练数据+降低查询量+保证扰动小

替代模型的训练需要已知训练数据：白盒模型的特征表示和黑盒模型的输出概率得分；
降低查询量：根据方向当属估计梯度减少梯度估计采样的样本，使用截断奇异值确定进一步降低查询量；
保证扰动小：每次扰动的寻优都约束到 $L_2$ 范数球上。

黑盒攻击现状

黑盒攻击分为两类：
基于梯度估计的对抗攻击: 描述了一个纯黑盒攻击设置，其中可用的信息只是黑盒模型的输入和输出。在此设置中使用的常用技术是零阶优化[8]。与白盒攻击不同的是，黑盒攻击中不存在与网络参数相关的梯度信息。梯度需要通过采样不同方向的扰动和汇总与输出相关的某个损失函数的相对变化来估计。
基于替代模型（substitute model）的对抗攻击:使用来自训练数据集的侧信息。通常，在给定的训练数据集上训练一个替代的白盒模型。

方案概述：

将白盒攻击和黑盒攻击相结合。通过将白盒模型的中间表示到黑盒模型输出的映射看作一个黑盒函数，在表示空间上形成一个替代的黑盒攻击设置，可以应用黑盒攻击的常见做法。另一方面，从原始输入到中间表示层的映射是预训练模型的一部分，可以看作是一个白盒设置。值得注意的是，该框架可以处理两个模型相同或不同的分类类别，增强了其实际应用场景。使用预训练白盒网络的表示空间有助于提高黑盒模型的攻击效率的主要原因是，深度神经网络的较低层，即表示学习层，在不同的数据集或数据分布之间是可转移的。

白盒模型：

$\circ h(x)$ ， $h (x)$ 表示原始输入到低维表示空间的映射， $g$ 表示输出概率的表示空间映射， $g:{\mathbb{R}^m} \to {[0,1]^{{c_w}}}$ ， ${c_w}$ 表示G输出类别的数量；

黑盒模型：

$F:{\mathbb{R}^n} \to {[0,1]^{{c_b}}}$ , ${c_b}$ 表示F输出类别的数量， ${c_b}$ 和 ${c_w}$ 可能不相等。

疑问
Q1: 如何对齐白盒模型和黑盒模型的输出概率分布的？存在两种情况：黑盒模型和白盒模型的输出概率分布不一致或者输出概率类别的长度可能不同？
A1: 为解决上述问题，作者并没有使用白盒模型的参数，而是使用白盒模型的中间表示 $z = h (x)$ 和新的映射函数 $\tilde g:{\mathbb{R}^m} \to {[0,1]^{{c_b}}}$ （被攻击黑盒模型的输出的表示空间）。类比白盒模型的定义，若 $\tilde g$ 存在，则可获得黑盒模型 $\tilde g \circ h(x)$ 。

基于上述定义，黑盒攻击的优化目标函数为：

$\mathop {\min }\limits_\delta {p_F}(y|x + \delta ) \Rightarrow \mathop {\min }\limits_\delta {p_{g \circ h}}(y|x + \delta ){\text{ }}s.t.,{\text{ }}||\delta |{|_2} < \rho$
${x_{t + 1}} = {x_t} - \varepsilon {\nabla _x}[F(x;\theta )]$ (1)

${\nabla _x}[F(x;\theta )]$ 通过采样一些扰动和汇总输出的相对变化来估计,但是在每次迭代时估计梯度，会消耗的大量的样本，这不利于提升攻击效率。为解决这一问题作者将梯度 ${\nabla _x}[F(x;\theta )]$ 拆分如下：

${\nabla _x}[F(x;\theta )] = {J_h}{(x)^T}{\nabla _z}[\tilde g{(z;\tilde \theta )_y}]$ (2)

${J_h}{(x)}$ 是关于 $h$ 的 $m * n$ 雅克比矩阵 $\frac{{\partial ({z_1},{z_2}, \cdots ,{z_m})}}{{\partial ({x_1},{x_2}, \cdots ,{x_n})}}$ , $z$ 是特征空间表示，也就是 $h$ 的输出。但 ${\nabla _z}[\tilde g{(z;\tilde \theta )_y}]$ 中 $\tilde g$ 是黑盒模型，因此需要采样估计 ${\nabla _z}[\tilde g{(z;\tilde \theta )_y}]$ 。 $y$ 表示 $\tilde g$ 输出的第 $y$ 个成分。

根据方向倒数的定义可知，
${\nabla _z}[\tilde g{(z;\tilde \theta )_y}] = \sum\limits_{i = 1}^m {(\frac{{\partial \tilde g{{(z;\tilde \theta )}_y}}} {{\partial {{\vec l}_i}}}{|_z} \cdot \vec l)} ,{{\vec l}_1},{{\vec l}_2}, \cdots ,{{\vec l}_m}{\text{ are orthogonal}}$ (3)

我们可以通过每次迭代使用m个样本，从一组正交基中迭代地设置 $z$ 的扰动方向，来估计 ${\nabla _z}[\tilde g{(z;\tilde \theta )_y}]$ 。但是使用上述方法估计 ${\nabla _z}[\tilde g{(z;\tilde \theta )_y}]$ 会消耗巨大的查询预算。为解决这一问题，作者通过牺牲估计精度来降低查询量。具体而言，首先设计EigenBA算法来寻找表示空间的标准基，

${{\vec l}_i} = {J_h}(x){\delta _i}$ (4)

${\delta _i}$ 是原始输入空间上的扰动，会导致表示空间变成 ${{\vec l}_i}$ 。最优的扰动可求解为：
在这里插入图片描述
作者对上述等式求解获得最优的 ${\delta _1},{\delta _2}, \cdots ,{\delta _m}$

因此，如果我们将扰动依次迭代采样到 ${\delta _1},{\delta _2}, \cdots ,{\delta _m}$ ，则一步实际扰动 ${\nabla _x}[F(x;\theta )]$ 可以用公式2和式3来近似，并且，由于特征值的迹可能很小，即表征空间的扰动范数可能对具有相应特征向量方向的原始输入空间上的扰动不敏感。为了在不牺牲太多攻击效率的情况下减少查询数，作者只保留探测的top-K扰动， ${\delta _1},{\delta _2}, \cdots ,{\delta _K}$ 。通过对雅可比矩阵J进行截断奇异值分解(SVD)，只保留前K个分量，可以快速计算出 ${J^T}J$ 的特征向量。