Generating Natural Adversarial Examples. Zhengli Zhao, Dheeru Dua, Sameer Singh. ICLR 2018. decision[pdf][code]
文章目录
- 贡献
- 框架
- 解释样本
- 实验
- 结论
贡献
框架
解释样本
举例说明(使用算法1)
实验
结论
要点:
- 引入 i n v e r t e r inverter inverter(逆变器)。利用 W G A N WGAN WGAN策略训练出生成器 G G G,借助生成器训练逆变器 I I I。 I I I是 G G G的反向过程: X — — > Z X——>Z X——>Z
- 输入空间&语义空间。不直接对输入样本进行扰动,而是借助隐层空间 Z Z Z。样本 x x x通过逆变器 I I I映射到该空间得到 z ′ z' z′,对 z ′ z' z′进行随机扰动得到 z z z^,然后通过生成器 G G G得到 x x x^,使分类器原始标签发生变化。选择最接近 z ′ z' z′的 z z z^记作 z ∗ z* z∗。则对抗样本 x ∗ = G ( z ∗ ) x* = G(z*) x∗=G(z∗)。
- 随机扰动。提出两个搜索算法。算法一是由近及远进行搜索,每次按delta r r r扩大搜索范围。一次迭代随机采样 N N N个扰动,迭代次数越靠前与原样本的相似度就越高。该算法效率低。算法二是由远及近,每次迭代都要缩紧采样上界。在每次迭代中使用二分策略调整采样下界。该算法速度4倍于算法一,效果近似。但计算代价仍然高。
- 引入自编码器对离散的文本数据进行处理。编码成连续代码,解码成离散文本。
- 黑盒环境下,通过无标注的数据集衡量模型的鲁棒性(准确地说是准确率)。
思考:
- 文本:该方法+同义词选择方法+语言模型 = 高质量的对抗样本
- 该思想用于白盒环境下,结合梯度?