论文地址:Generating Natural Language Adversarial Examples through Probability Weighted Word Saliency - ACL Anthology,发表于第57届计算语言学协会年会论文集(2019年7月28日至8月2日)的第1085-1097页。
目录
论文主要工作
已有的工作
创新性
具体方法
问题
对抗样本示例
单词替换
候选词选择
替换策略
效果
评价
论文主要工作
在产生对抗样本,保持词法,语法的正确性和语义的相似性。提出了一种全新的方法:在同义词替换策略的基础上,引入了一种新的由词显著性和分类概率决定的词替换顺序,从而提出了一种用于文本对抗攻击的名为概率加权词显著性的贪婪算法(PWWS)。并在三个流行的卷积和LSTM模型的数据集上进行实验,结果表明,PWWS在最大程度上降低了分类精度,并保持了很低的词替换率。同时,产生的样本质量较好,可以增强模型的鲁棒性,且攻击方法具有良好的可移植性。
已有的工作
对于对抗攻击,在图像方面已经有了很多的很成熟的研究,但由于文本的离散型,图像方面的攻击方法无法直接转化为NLP攻击。一般的方法是在单词级别或字符级别修改原始样本,以实现对抗性攻击。目前已有一些攻击方法,但是大多相关研究在修改率、攻击成功率、词法和语法正确性以及语义相似度的维护等方面仍有很大的改进空间。在同义词替换策略的基础上,我们提出了一种新的黑盒攻击方法PWWS。
创新性
概率加权法单词显著性(PWWS),既考虑单词显著性,又考虑分类概率。分类概率的变化值用来衡量替代词的攻击效果,而词的显著性则反映了原词对分类的影响程度。以词显著性加权的分类概率的变化值决定了最终的替代词和替换顺序。
具体方法
问题
对于文本分类,有输入空间X,包含了所有可能的输入文本,一个输出空间Y,包含了K个可能的标签。分类器要做的就是学习X到Y的映射。
对抗样本示例
分类器F能够通过最大后验概率将文本x分类为正确的y。
攻击时给x加上一个微小扰动△x,将扰动后的攻击样本记为x*。攻击样本满足下列条件:
对扰动△x也有一定的约束:
公式中的w是样本x的单词或字符。除了上面的公式外,对抗样本还要满足词汇,语法,和语义上的限制,使人类无法察觉样本是否添加了扰动。
单词替换
-
候选词选择
对样本x中的每一个单词w,使用WordNet来建立一个同义词组。如果w是一个命名实体的话,选择的同义词需要与w同类。从同义词组中选择一个词w’来替换w,得到样本x’,替换前和替换后的分类概率之间的变化来表示w’的攻击效果。找的攻击效果最佳的词,将其记为x*。公式描述如下:
-
替换策略
对于一个句子中不同单词对最终分类的影响,用单词显著性(word saliency)来评价。单词显著性的含义是如果一个词被设为未知,分类器输出概率的变化程度。公式描述如下:
将所有的单词显著性记录下来,记为显著性向量。
在考虑替换词的优先级是,综合考虑替换后分类概率的变化程度和每个词的显著性两个因素。替换策略如下:
效果
最终的实验结果如下:
评价
PWWS攻击模型属于文本对抗领域的一种比较优秀的攻击模型。单词的替换基于同义词,同时还考虑了替换后分类概率的变化程度和每个词的显著性两个因素,攻击效果比较好。虽然论文中的对抗样本表现比较好,但是,从具体运行结果来看,会有一部分的对抗样本质量比较差。