基于图神经网络的对抗攻击 Nettack: Adversarial Attacks on Neural Networks for Graph Data

研究意义

随着GNN的应用越来越广，在安全非常重要的应用中应用GNN，存在漏洞可能是非常严重的。
比如说金融系统和风险管理，在信用评分系统中，欺诈者可以伪造与几个高信用客户的联系，以逃避欺诈检测模型；或者垃圾邮件发送者可以轻松地创建虚假的关注者，向社交网络添加错误的信息，以增加推荐和传播重大新闻的机会，或者操控在线评论和产品网站。
因此，我们需要研究对图神经网络的攻击和防御，在我们真正部署一个模型前，应该确认一下这个模型在面对对抗攻击的时候足够健壮？

参考资料

https://zhuanlan.zhihu.com/p/88934914
https://blog.csdn.net/b224618/article/details/82025371
https://blog.csdn.net/travalscx/article/details/84677646
https://www.in.tum.de/en/daml/all-news/news-single-view-en/article/best-paper-award-at-kdd-2018/

项目：https://www.in.tum.de/daml/nettack/
项目：https://www.in.tum.de/en/daml/research/nettack/
代码：https://github.com/danielzuegner/nettack
poster：https://www.in.tum.de/fileadmin/w00bws/daml/nettack/kdd_poster.pdf
paper：https://arxiv.org/abs/1805.07984
talk ppt：https://www.in.tum.de/fileadmin/w00bws/daml/nettack/kdd_talk.pdf

介绍

来自KDD 2018，最佳论文。图神经网络上的对抗攻击的开山之作。

场景

在这里插入图片描述
备注：
考虑一个简单且经典的场景，图上的结点分类任务。
给定一张图，图上部分结点有标签，通过训练一个深度学习模型来预测图上结点的分类。

一方面预测不基于单独的示例而是联合了图上很多实例的关系效应可能提高鲁棒性；另一方面信息传播带来的级联效应，操纵一个示例可能会影响其他实例，可能会降低鲁棒性。

本文就是研究操纵模型的预测结果是否可能？并且提出一个名叫nettack的对抗攻击算法，来欺骗图深度学习模型。

挑战

如何找到有效的制造扰动的算法？
如何界定图的扰动不明显、不被注意到？

备注：
想要找到对图神经网络的对抗攻击算法，有两个挑战。

一方面图，不像图像这种由连续特征组成的数据，图的结构和以及大部分情况下的节点特征都是离散的，所以基于梯度构造干扰的方法不适用，那么怎么设计有效的算法来在离散空间找到对抗样本呢？

另一方面对抗样本一个要求是不可分辨性，例如图像，我们可以通过限制每个像素变化很小的值使得人类无法分辨图像的变化。对于大规模的图来说，错综复杂的点和线并不是适合人来观察的，那么怎么定义这种“不可分辨性”呢？

攻击模型

在这里插入图片描述

投毒攻击（ poisoning attack）
- 发生在模型被训练前，攻击者可以在训练数据中投毒，导致训练的模型出现故障
逃逸攻击（ evasion attack）
- 发生在模型被训练以后或者测试阶段，模型已经固定了，攻击者无法对模型的参数或者结构产生影响

备注：
为了解决明确我们的问题，先来讨论一下攻击模型。

图上的结点分类任务一般是直推学习（上节讨论班讲过，简单提一下），就是训练和预测基于同一张图。
可以看图上最上面的例子，这张图一部分是有标签的，在这张图上训练好模型以后，用模型来预测这张图上没有标签的点的标签。

然后逃逸攻击指的是只修改预测时的图，也就是模型参数在训练数据上训练，攻击发生模型被训练以后或者测试阶段，模型已经固定了，攻击者无法对模型的参数或者结构产生影响。
也就是图中的第二个例子。逃逸攻击的应用场景更窄一些。

本文考虑的是投毒攻击，投毒发生在模型被训练前，直接用投毒的数据来训练模型并且在投毒的数据上做预测。
在这里插入图片描述
备注：
为了更好的反映现实情况，即攻击者不一定可以直接修改目标结点，可能只能访问除目标结点外的一些结点，或者不能访问整个数据。

因此明确的区分了攻击者结点和目标结点。

目标节点：让模型错误分类的结点
攻击者结点：攻击者可以操作的结点

同时，又根据攻击者控制的结点不同，可以分为直接攻击和推理攻击：

直接攻击：攻击者可以直接操作目标结点，目标结点 == 攻击者结点
推理攻击：攻击者只能操作除目标结点以外的结点，目标结点 ∉ 攻击者结点

还有我们可以做出的扰动类型，比如修改结点特征，添加删除边等等。

问题定义

在这里插入图片描述
备注：
有了前面的这些知识，我们就可以定义我们的问题。
目标是：在有约束的情况下，最大化目标结点的分类损失，也就是最大化结点在扰动后的图上做预测的标签和真实标签的距离

约束是：第一，扰动是不被注意到的；第二，确保攻击者不能修改整个图，允许的扰动数目是有限制的。第二个约束比较好理解，就是限制做扰动的数目，修改一次结点特征或者添加删除一条边，都算一次扰动。

然后问题是如何定义不被注意到的扰动？

如何定义不被注意的扰动

核心思想：只允许那些保留图的特定固有属性的扰动
在这里插入图片描述
备注：
定义不被注意的扰动核心思想是只允许那些保留图特定固有属性的扰动。
对于图结构来说，就是度的分布。因为现实中的图的度分布是符合幂律分布的，所以可以通过检验两张图的度分布是否来自于同一个幂律分布，来判断度的分布有没有明显的改变。