【论文阅读】Revisiting the Assumption of Latent Separability for Backdoor Defenses

https://github.com/Unispac/Circumventing-Backdoor-Defenses

摘要和介绍

在各种后门毒化攻击中,来自目标类别的毒化样本和干净样本通常在潜在空间中形成两个分离的簇。
在这里插入图片描述

这种潜在的分离性非常普遍,甚至在防御研究中成为了一种默认假设,我们称之为潜在分离性假设。基于这一假设设计的防御方法通过在潜在空间中进行聚类分析来识别毒化样本。具体来说,这些防御方法首先在污染数据集上训练一个基础分类器,并期望该基础模型能自然地学习到毒化样本和干净样本的可分离潜在表示。之后,它们会在基础模型的潜在空间上进行聚类分析。如果潜在分离性特征可靠地出现,这些防御方法就能够准确地识别出由毒化样本形成的异常簇,从而将这些样本从训练集中滤除。我们注意到,这类基于潜在分离的防御方法在后门防御领域尤其重要和成功。像Spectral Signature(Tran等,2018)和Activation Clustering(Chen等,2019)这样的提议已经成为不可或缺的基准,近年来,基于这一假设的最新方法,如SCAn(Tang等,2021)和SPECTRE(Hayase等,2021),甚至声称能在各种攻击中实现几乎完美的召回率,并且假阳性率极低。

鉴于潜在分离性在防御中的普遍性及其显著效果,一个自然的问题随之而来:潜在分离性对后门毒化攻击来说是否是不可避免的?

我们设计了适应性后门毒化攻击(无需控制模型的训练过程),通过这种攻击主动抑制潜在分离性,同时保持较高的攻击成功率(ASR)和极小的干净样本准确率下降。
我们适应性攻击设计的两个关键组件为:
(1)基于数据毒化的正则化。在向一组样本植入后门触发器后,我们不会将所有样本都错误地标记为目标类别,而是随机保留一部分样本(即正则化样本),并仍然正确标记为其实际语义类别。从直觉上讲,这些额外的正则化样本可以惩罚后门触发器与目标类别之间的关联。
(2)促进不对称性和多样性的触发器植入策略。我们通过不对称的触发器植入策略解决了正则化样本对后门关联的惩罚可能会显著降低攻击成功率(ASR)的问题。

在这里插入图片描述

如图2所示,我们在构建正则化样本和有效载荷样本时,使用了较弱的触发器,而标准触发器仅在测试时用于激活后门。这样,测试时带有标准触发器的后门样本具有比正则化样本(带弱触发器)更强的后门特征,因此,测试时的攻击能够很好地缓解正则化样本的反作用,并保持较高的攻击成功率。除了不对称性,我们的设计还鼓励触发器的多样性——不同的毒化样本可以使用来自不同触发器分区的不同部分触发器。从直觉上讲,这种多样性使得后门毒化样本在潜在表示空间中分布得更加分散,从而避免它们聚集成易于识别的簇。

相关工作

针对基于潜在分离的防御的适应性后门攻击
一类适应性后门攻击(Tan & Shokri, 2020;Xia等,2022;Doan等,2021;Ren等,2021;Cheng等,2021;Zhong等,2022)明确旨在减少毒化样本和干净样本之间的潜在分离。然而,这些攻击并不符合后门毒化攻击的范式——它们假设对整个训练过程有额外的控制,因此直接将潜在的不可分离性编码到被攻击模型的训练目标中。与之更相关的工作是Tang等(2021),他们指出其源特定的仅毒化攻击能够减少潜在分离性。然而,正如图1e所示,当基础模型与标准数据增强一起训练时,毒化样本和干净样本之间仍然存在明显的分离,实际上Tang等(2021)自己也表明,通过改进的潜在空间聚类分析,就足以完美分离这种攻击的毒化样本和干净样本。因此,目前仍不清楚仅毒化的后门攻击是否能够克服潜在分离性,从而绕过基于潜在分离的后门防御方法。本文填补了这一空白,设计了能够主动抑制潜在分离性的适应性后门毒化攻击(从而规避现有基于潜在分离的防御)。

方法

对于潜在分离现象,我们的设计受到了两个互补的启发性视角的启发。第一个视角将潜在分离归因于后门触发器在后门模型推理中的主导作用(Tran等,2018)。直观上,为了将一个(植入触发器的)后门毒化样本从其语义类推向目标类,后门模型倾向于在潜在表示空间中学习到一个过于强烈的信号,该信号可以压倒其他语义特征,从而做出决定。这种只出现在后门毒化样本中的强烈后门信号导致了潜在分离的出现。 第二个视角是,后门模型为毒化样本和干净样本学习不同的表示,仅仅因为它们倾向于为毒化样本学习一个单独的快捷规则(Geirhos等,2020),这个规则完全基于触发器模式,而不使用任何语义特征。也就是说,后门学习通常独立于(或仅与)主任务所用的语义特征相关,因此适应毒化数据集的后门模型本质上学习了两个无关(或弱相关)的任务。从这个角度来看,后门模型并没有强烈的动机去为这两个异质任务的样本学习同质的潜在表示。

受到这些视角的启发,我们认为一个理想的适应性后门毒化攻击(能够减轻潜在分离)可能需要编码某种形式的正则化,以(1)惩罚后门模型学习到对后门触发器的异常强烈信号;(2)鼓励后门学习与主任务学习之间的关联。

在这里插入图片描述
我们在图2中展示了我们设计的概述。与典型的后门毒化攻击不同,在我们的框架中,我们并非将所有植入触发器的样本都标记为目标类。如图所示,在将后门触发器植入一组样本(从所有类别中采样)后,我们将其随机分成两组。对于一组样本,我们仍然将它们标记为目标类(我们称这组为有效载荷样本),以建立触发器模式与目标标签之间的后门关联;而另一组(即正则化样本)则被正确地标记为其真实的语义类别(可能不同于目标类),以正则化后门关联。

此外,我们在触发器设计中引入了不对称性和多样性的思想——我们应用一组不同的弱化触发器来构建正则化样本和有效载荷样本进行数据毒化,而原始的标准触发器则在测试时用于激活后门。

正则化样本
我们注意到,正则化样本的引入很好地结合了提出的两种见解(方法开头的第一段)。首先,通过正则化样本,后门模型不再能够学习到一个对后门触发器过于强烈的信号,这样的信号会独裁性地决定目标类,否则它就无法拟合正确标记为其他类别的正则化样本。 这也解释了正则化样本命名的原因——直观地说,它们作为正则化项,有助于惩罚学习到的潜在表示中的后门信号。其次,模型也无法通过简单的快捷规则拟合所有植入触发器的样本。相反,现在它必须拟合一个更复杂的边界,该边界应该决定何时将植入触发器的输入分类为目标类,何时将其分类为真实的语义标签,而这个边界是随机生成的。 为了成功拟合这个边界,模型必须依赖于触发器模式和与触发器共存的语义特征的伪影,因此,后门样本的学习潜在表示应当是触发器模式和语义特征的平衡融合。

不对称触发器
引入不对称触发器对于我们的攻击仍能保持较高的攻击成功率(ASR)至关重要。正如我们容易注意到的那样,由于正则化样本会惩罚后门关联,其副作用可能是攻击成功率(ASR)的下降。为了缓解这个问题,我们的设计中,数据毒化时使用弱化的触发器,而测试时只使用(更强的)原始标准触发器。直觉是:在测试时,后门样本(带有标准触发器)包含比正则化样本(带有弱化触发器)更强的后门特征。这使得测试时的后门样本具有足够的“力量”来抵消正则化样本的对抗作用,从而仍能实现较高的攻击成功率。我们注意到,不对称触发器的想法最早可以追溯到Chen等人(2017),但其背景不同。为了避免人工检查毒化数据集,Chen等(2017)建议使用视觉上不太明显的弱化触发器进行数据毒化,并指出如果在测试时使用原始标准触发器,仍然可以保持较高的攻击成功率。在我们的背景下,我们主要使用弱化触发器来减轻正则化样本带来的负面影响。

触发器多样性
我们还强调,触发器多样化在我们设计中也有助于缓解潜在分离。直观上,由于不同的毒化样本可能被植入不同的触发器,这些毒化样本可能在潜在表示空间中更加分散。因此,我们期望这种更为多样化的分散可以防止这些毒化样本聚集成一个容易识别的簇。

实例化方法

我们在图2中展示的框架是通用的,可以与现有技术创造性地结合,从而实例化出强大的自适应攻击。根据这一框架,我们通过直接调整常用的图像融合和补丁基毒化策略,实例化了两种具体攻击,分别是自适应融合攻击(Adaptive-Blend)和自适应补丁攻击(Adaptive-Patch)

在这里插入图片描述

在这里插入图片描述

只看了核心方法部分,其他部分没怎么看 (只看了1/3左右) 消融实验什么的。空了看下后面的

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/16738.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2024-2025年主流的开源向量数据库推荐

以下是2024-2025年主流的开源向量数据库推荐,涵盖其核心功能和应用场景: 1. Milvus 特点:专为大规模向量搜索设计,支持万亿级向量数据集的毫秒级搜索,适用于图像搜索、聊天机器人、化学结构搜索等场景。采用无状态架…

开源身份和访问管理方案之keycloak(一)快速入门

文章目录 什么是IAM什么是keycloakKeycloak 的功能 核心概念client管理 OpenID Connect 客户端 Client Scoperealm roleAssigning role mappings分配角色映射Using default roles使用默认角色Role scope mappings角色范围映射 UsersGroupssessionsEventsKeycloak Policy创建策略…

【工业场景】用YOLOv8实现火灾识别

火灾识别任务是工业领域急需关注的重点安全事项,其应用场景和背景意义主要体现在以下几个方面: 应用场景:工业场所:在工厂、仓库等工业场所中,火灾是造成重大财产损失和人员伤亡的主要原因之一。利用火灾识别技术可以及时发现火灾迹象,采取相应的应急措施,保障人员安全和…

FlinkCDC 实现 MySQL 数据变更实时同步

文章目录 1、基本介绍2、代码实战 2.1、数据源准备2.2、代码实战2.3、数据格式 1、基本介绍 Flink CDC 是 Apache Flink 提供的一个功能强大的组件,用于实时捕获和处理数据库中的数据变更。可以实时地从各种数据库(如MySQL、PostgreSQL、Oracle、Mon…

金融风控项目-1

文章目录 一. 案例背景介绍二. 代码实现1. 加载数据2. 数据处理3. 查询 三. 业务解读 一. 案例背景介绍 通过对业务数据分析了解信贷业务状况 数据集说明 从开源数据改造而来,基本反映真实业务数据销售,客服可以忽略账单周期,放款日期账单金…

CANMV K230入手体验(1)u盘安装镜像

这是安装镜像后的磁盘管理。 使用镜像文件名为: CanMV-K230_01Studio_micropython_v1.2.2-0-g4b8cae1_nncase_v2.9.0.img。 安装结束。 套件的sd卡损坏,已申请更换。 小伙伴们注意sd卡的问题,一个上午过去了。C... 下图是资源管理器的截…

策略模式-小结

总结一下看到的策略模式: A:一个含有一个方法的接口 B:具体的实行方式行为1,2,3,实现上面的接口。 C:一个环境类(或者上下文类),形式可以是:工厂模式,构造器注入模式,枚举模式。 …

springCloud-2021.0.9 之 GateWay 示例

文章目录 前言springCloud-2021.0.9 之 GateWay 示例1. GateWay 官网2. GateWay 三个关键名称3. GateWay 工作原理的高级概述4. 示例4.1. POM4.2. 启动类4.3. 过滤器4.4. 配置 5. 启动/测试 前言 如果您觉得有用的话,记得给博主点个赞,评论,收…

[FastAdmin] 上传图片并加水印,压缩图片

1.app\common\library\Upload.php 文件 upload方法 /*** 普通上传* return \app\common\model\attachment|\think\Model* throws UploadException*/public function upload($savekey null){if (empty($this->file)) {throw new UploadException(__(No file upload or serv…

windows系统远程桌面连接ubuntu18.04

记录一下自己在配置过程中遇到的问题,记录遇到的两大坑: windows系统通过xrdp远程桌面连接ubuntu18.04的蓝屏问题。参考以下第一章解决。 同一局域网内网段不同的连接问题。参考以下第三章解决,前提是SSH可连。 1. 在ubuntu上安装xrdp 参考&…

逻辑回归不能解决非线性问题,而svm可以解决

逻辑回归和支持向量机(SVM)是两种常用的分类算法,它们在处理数据时有一些不同的特点,特别是在面对非线性问题时。 1. 逻辑回归 逻辑回归本质上是一个线性分类模型。它的目的是寻找一个最适合数据的直线(或超平面&…

23页PDF | 国标《GB/T 44109-2024 信息技术 大数据 数据治理实施指南 》发布

一、前言 《信息技术 大数据 数据治理实施指南》是中国国家标准化管理委员会发布的关于大数据环境下数据治理实施的指导性文件,旨在为组织开展数据治理工作提供系统性的方法和框架。报告详细阐述了数据治理的实施过程,包括规划、执行、评价和改进四个阶…

ESM3(1)-介绍:用语言模型模拟5亿年的进化历程

超过30亿年的进化在天然蛋白质空间中编码形成了一幅生物学图景。在此,作者证明在进化数据上进行大规模训练的语言模型,能够生成与已知蛋白质差异巨大的功能性蛋白质,并推出了ESM3,这是一款前沿的多模态生成式语言模型,…

在大型语言模型(LLM)框架内Transformer架构与混合专家(MoE)策略的概念整合

文章目录 传统的神经网络框架存在的问题一. Transformer架构综述1.1 transformer的输入1.1.1 词向量1.1.2 位置编码(Positional Encoding)1.1.3 编码器与解码器结构1.1.4 多头自注意力机制 二.Transformer分步详解2.1 传统词向量存在的问题2.2 详解编解码…

【黑马点评】 使用RabbitMQ实现消息队列——3.批量获取1k个用户token,使用jmeter压力测试

【黑马点评】 使用RabbitMQ实现消息队列——3.批量获取用户token,使用jmeter压力测试 3.1 需求3.2 实现3.2.1 环境配置3.2.2 修改登录接口UserController和实现类3.2.3 测试类 3.3 使用jmeter进行测试3.4 测试结果3.5 将用户登录逻辑修改回去3.6 批量删除生成的用户…

【安全靶场】信息收集靶场

靶场:https://app.hackinghub.io/hubs/prison-hack 信息收集 子域名收集 1.subfinder files.jabprisons.com staging.jabprisons.com cobrowse.jabprisons.com a1.top.jabprisons.com cf1.jabprisons.com va.cobrowse.jabprisons.com vs.jabprisons.com c…

springboot239-springboot在线医疗问答平台(源码+论文+PPT+部署讲解等)

💕💕作者: 爱笑学姐 💕💕个人简介:十年Java,Python美女程序员一枚,精通计算机专业前后端各类框架。 💕💕各类成品Java毕设 。javaweb,ssm&#xf…

(一)获取数据和读取数据

获取公开数据 下载、爬虫、API 一些公开数据集网站: 爬虫: 发送请求获取网页源代码——解析网页源代码内容,提取数据 通过公开API获取: API定义了两个程序之间的服务合约,即双方是如何使用请求和响应来进行通讯的…

在MacBook Air上本地部署大模型deepseek指南

随着大模型技术的兴起,越来越多的人开始关注如何在本地部署这些强大的AI模型。如果你也想体验大模型的魅力,那么这篇文章将指导你如何在你的MacBook Air上本地部署大模型. 工具准备 为了实现本地部署,你需要以下工具: Ollama&a…

Windows中使用Docker安装Anythingllm,基于deepseek构建自己的本地知识库问答大模型,可局域网内多用户访问、离线运行

文章目录 Windows中使用Docker安装Anythingllm,基于deepseek构建自己的知识库问答大模型1. 安装 Docker Desktop2. 使用Docker拉取Anythingllm镜像2. 设置 STORAGE_LOCATION 路径3. 创建存储目录和 .env 文件.env 文件的作用关键配置项 4. 运行 Docker 命令docker r…