【论文阅读】ACM MM 2023 PatchBackdoor:不修改模型的深度神经网络后门攻击

文章目录

一.论文信息
二.论文内容
- 1.摘要
- 2.引言
- 3.作者贡献
- 4.主要图表
- 5.结论

一.论文信息

论文题目： PatchBackdoor: Backdoor Attack against Deep Neural Networks without Model Modification（PatchBackdoor:不修改模型的深度神经网络后门攻击）

论文来源： 2023-ACM MM

论文团队： 清华大学人工智能产业研究院（AIR）&武汉大学&上海交通大学&上海人工智能实验室

在这里插入图片描述 )

二.论文内容

1.摘要

后门攻击是深度学习系统在安全关键场景中的主要威胁，其目的是在攻击者控制的条件下触发神经网络模型的不当行为。然而，大多数后门攻击必须通过使用有毒数据和或直接编辑模型来修改神经网络模型，这导致了一种常见但错误的信念，即通过适当保护模型可以很容易地避免后门攻击。在本文中，我们证明了后门攻击可以在不修改模型的情况下实现。我们不向训练数据或模型中注入后门逻辑，而是在摄像机前放置一个精心设计的补丁(即后门补丁)，与输入的图像一起馈送到模型中。当输入图像包含攻击者控制的触发对象时，该补丁可以被训练成在大多数时间表现正常，而产生错误的预测。我们的主要技术包括一种有效的训练方法来生成后门补丁和一种数字物理转换建模方法来增强补丁在实际部署中的可行性。大量实验表明，PatchBackdoor可以应用于常见的深度学习模型(VGG, MobileNet, ResNet)，在分类任务上的攻击成功率为93%至99%。此外，我们在现实场景中实现了PatchBackdoor，并表明攻击仍然具有威胁性。

2.引言

深度神经网络(Deep Neural Networks, dnn)广泛应用于许多安全关键边缘系统，如自动驾驶[8]、人脸认证[42]和医疗诊断[31,35]。在为许多应用带来极大便利的同时，深度学习(DL)的安全问题也受到了广泛关注。

众所周知，DNN容易受到多种类型的攻击，而后门攻击是其中的主要一种。大多数后门攻击方法通过使用有毒数据集训练受害者模型来进行攻击[13,28]。当预测正常测试样本时，训练模型将具有较高的良性准确性，而当存在某些攻击者控制的触发器时，模型将给出错误的预测。还有一些攻击者通过直接修改模型结构和/或权重来进行攻击[6]，这种攻击通常发生在第三方机器学习平台上，用户将培训或服务外包给不可信的服务提供商。攻击者可以修改他们的模型，在模型实际部署之前注入后门。

后门攻击的一个主要限制是需要修改模型，这在大多数安全关键场景中都是具有挑战性的。例如，大多数自动驾驶公司使用自己收集和仔细过滤的数据集进行培训，也不会将培训外包给云服务。在部署时，可以将模型放在只读内存中以确保完整性。因此，尽管后门攻击看起来很有威胁，但对于大多数可以安全地管理训练数据集和部署模型的模型开发人员来说，它并不那么重要。

在本文中，我们提出在不修改受害者模型的情况下实现后门攻击。我们的想法是通过附加一个恒定的输入补丁来注入后门逻辑，这是可行的，因为许多视觉应用具有不变的前景/背景。这种攻击是危险的，因为(i)模型开发人员很难避免这种攻击，因为攻击发生在模型安全部署之后;(ii)攻击者可以灵活地控制后门逻辑来实现实际攻击。

使用输入补丁为深度神经网络后门的想法与对抗性补丁攻击密切相关[2,13]，这在文献中得到了广泛的研究。然而，对抗性补丁攻击的目标是，如果输入中出现了精心设计的补丁，则直接产生错误的预测。相反，我们的目标是在前景或背景中注入一个带有恒定补丁的隐藏后门逻辑。我们的方法是后门和对抗性补丁攻击之间的一种新颖的联系。

我们的方法包括两个主要技术。首先，我们采用蒸馏式训练方法生成不带标记训练数据的后门补丁。具体来说，我们设计了一个训练目标，共同最大化patch隐身性(即，在正常输入上模仿良性模型行为)和攻击有效性(即，在触发条件下产生不当行为)。

其次，为了提高物理世界中的攻击效果，我们提出用可微变换(包括形状变换和颜色变换)对数字-物理视觉位移进行建模，使数字训练后的后门补丁可以直接应用于物理世界。

为了评估我们的方法，我们在三个数据集(CIFAR10[24]、Imagenette[18]、Caltech101[9])和三个模型(VGG[40]、ResNet[16]、MobileNet[39])上进行了实验。结果表明，该算法在不同情况下都具有较强的鲁棒性，攻击成功率在93% ~ 99%之间。同时，我们的攻击是隐形的，因为后门补丁不会影响受害者模型的良性准确性，并且很难被分布外(OOD)检测器检测到。通过使用不同的剪枝比率(0%、30%、60%、90%)进行测试，我们还证明了我们的攻击在不同的过参数化水平上是有效的。通过将攻击部署到物理世界，我们演示了在真实场景中攻击的可行性。

本文的研究贡献如下: