腾讯AI Lab参与:基于弹性网络正则化的深度神经网络对抗样本攻击

腾讯 AI Lab 在 2018 年 AAAI 中入选论文 11 篇,其中一篇与 IBM Research、The Cooper Union 和加州大学戴维斯分校合作的论文入选口头报告(Oral)。这篇论文提出一种基于弹性网络正则化的攻击算法,该算法将对抗样本攻击 DNN 的过程形式化为弹性网络正则化的优化问题。此外,对基于 L1 失真攻击的评估为对抗式机器学习和 DNN 安全应用提供了全新的洞见,并进一步完善对抗式机器学习框架。

深度神经网络(DNN)在机器学习和人工智能的诸多不同任务(诸如图像分类、语音识别、机器翻译、打游戏)上取得了当前最优结果。尽管很有效,DNN 在对抗样本(Szegedy et al. 2013; Goodfellow, Shlens, and Szegedy 2015)面前依然表现的很脆弱。比如,一个精心设计的图像扰动可以轻易使训练良好的 DNN 失去分类能力。更糟糕的是,人类的感知实际上也无法在视觉上辨认有效对抗样本的区别。比如,图 1 给出了由我们的算法生成的鸵鸟图像的三个对抗样本,由一种当前最优的图像分类模型 Inception-v3(Szegedy et al. 2016)分别识别为「安全」、「鞋店」和「吸尘器」。

腾讯AI Lab参与:基于弹性网络正则化的深度神经网络对抗样本攻击

图 1:由 EAD(算法 1)生成的对抗样本。原始样本是一张来自 ImageNet 数据集(图 1 (a))的鸵鸟图像。图 1 (b) 中的对抗样本被 Inception-v3 识别为不同的类别标签。

DNN 在对抗样本面前所欠缺鲁棒性引起了安全类应用的强烈关注,包括交通信号识别、恶意软件检测等等。然而,在数字空间之外的现实世界,研究者已表明对抗样本在愚弄 DNNs 上依然有效(Kurakin, Goodfellow, and Bengio 2016a; Evtimov et al. 2017)。鉴于鲁棒性和安全性的存在,制作对抗样本的方法称作 DNN 攻击。特别是,有目标的攻击旨在制造被误分类为特定目标类别的对抗样本,而无目标的攻击旨在制作不是原始分类的对抗样本。迁移攻击旨在制作可从一个 DNN 模型迁移到另一个的对抗样本。除了评估 DNN 的鲁棒性,对抗样本还可用于训练能够适应对抗扰动的鲁棒模型,这称之为对抗训练(Madry et al. 2017),并已经用于解释 DNN(Koh and Liang 2017; Dong et al. 2017)。

在整篇论文中,我们使用对抗样本攻击基于深度卷积神经网络的图像分类器。制作有效对抗样本的原理在于操控预测结果,同时又保证与原始图像的相似性。具体来讲,在文献中原始与对抗样本之间的相似性已经进行了不同的失真度量(distortion metrics)。一个常用的失真度量是 L_q 范数,其中

腾讯AI Lab参与:基于弹性网络正则化的深度神经网络对抗样本攻击

上式表示任意 q ≥ 1 的 p 维向量 x = [x_1, . . . , x_p] 的 L_q 范数。尤其当制作对抗样本时, L∞失真度量用于评估最大的像素值变化(Goodfellow, Shlens, and Szegedy 2015),而 L2 失真度量则用于提升视觉质量(Carlini and Wagner 2017b)。

然而,尽管 L1 范数广泛用于图像降噪、还原(Fu et al. 2006)以及稀疏恢复(Candes and Wakin 2008),基于 L1 的对抗样本并未被严格探讨。在对抗样本中,L1 失真说明了扰动中的总变化,并作为 L0 度量的凸替代函数,它可以度量扰动所修改的像素(即稀疏性)数量。为了弥补差距,我们提出了一种基于弹性网络正则化(Elastic-net regularization)的攻击算法,称为弹性网络正则化攻击(EAD)。弹性网络正则化是 L1 和 L2 惩罚函数的线性混合,已成为解决高维特征选择问题(Zou and Hastie 2005)的标准工具。在 DNN 攻击中,由于其推广了基于 L2 失真而提出的当前最优攻击方法(Carlini and Wagner 2017b),EAD 开辟了新的研究方向,并能够制造面向 L1 的对抗样本,它更有效,并迥然不同于现有的攻击方法。

为了探讨 EAD 基于 L1 构建的对抗样本效用,我们在不同的攻击情景中对 MNIST、CIFAR10 和 ImageNet 进行了大量实验。相较于当前最优的 L2 和 L∞攻击(Kurakin, Goodfellow, and Bengio 2016b; Carlini and Wagner 2017b),当攻击无防备和防备式提取的 DNN(Papernot et al. 2016b)时,EAD 可以获取相似的攻击成功率。更重要的是,我们发现 L1 攻击在迁移攻击中取得了优于 L2 和 L∞攻击的表现。对于更困难的数据集(MNIST),EAD 最终提升了从无防备 DNN 到防备式提取 DNN 的攻击迁移性,并取得了 99% 的攻击成功率。此外,带有 L1 和 L2 实例的联合对抗训练可以进一步提高 DNNs 对于对抗样本的适应力。这些结果表明 EAD 产生了一个截然不同,但更有效的对抗样本集。此外,对基于 L1 失真攻击的评估为对抗式机器学习和 DNN 安全应用提供了全新的洞见,并表明 L1 也许可以补充基于 L2 和 L∞的样本,进一步完善对抗式机器学习框架。

腾讯AI Lab参与:基于弹性网络正则化的深度神经网络对抗样本攻击

对比方法

我们对比了 EAD 和以下目标攻击,它们都是在不同失真度量中制造对抗样本的高效方法。

  • C&W 攻击:当前最优的 L2 目标攻击方法,由 Carlini 和 Wagner(Carlini and Wagner 2017b)提出。当β = 0 时,它是 EAD 算法的一个特殊案例。

  • FGM:快速梯度攻击算法(Goodfellow, Shlens, and Szegedy 2015)。在本文中我们使用 FGM-L1、FGM-L2 和 FGM-L∞表示不同的失真度量方法。

  • I-FGM:迭代的快速梯度攻击算法(Kurakin, Goodfellow, and Bengio 2016b)。在本文中我们使用 I-FGM-L1、I-FGM-L2 和 I-FGM-L∞表示不同的失真度量方法。

腾讯AI Lab参与:基于弹性网络正则化的深度神经网络对抗样本攻击

表 1: COV(change-of-variable)方法和 EAD(算法 1)在 MNIST 上实现弹性网络正则化攻击的对比。ASR 指攻击成功率 (%)。尽管这两个方法获得了相似的攻击成功率(皆接近或达到 100%),COV 在制作 L1 对抗样本上不甚有效。增加β减少了 EAD 的 L1-distorted 对抗样本,而 COV 的失真对β的变化却不敏感。

腾讯AI Lab参与:基于弹性网络正则化的深度神经网络对抗样本攻击

图 2:在带有不同 L1 正则化参数β(平均情况)的 MNIST 数据集上,EAD 中 EN 和 L1 决策规则的对比。相较于 EN 规则,对于相同的β,L1 规则获得了较少的失真,但也许会引发更多的 L2 和 L∞失真。

腾讯AI Lab参与:基于弹性网络正则化的深度神经网络对抗样本攻击

表 2:MNIST、CIFAR10 和 ImageNet(平均情况)上不同攻击的对比。失真度量取所有成功样本的平均值。EAD、C&W 攻击、I-FGM-L∞各自取得了最少的 L1、L2 和 L∞失真对抗样本。完整的攻击结果请参见附录资料 1。

腾讯AI Lab参与:基于弹性网络正则化的深度神经网络对抗样本攻击

图 3:在不同温度参数 T(防御性提取/defensive distillation)的 MNIST 和 CIFAR10 数据上,C&W 方法和 EAD 的攻击成功率(平均情况)。两种方法都可以攻克防御性提取。

腾讯AI Lab参与:基于弹性网络正则化的深度神经网络对抗样本攻击

图 4:κ不断变化的情况下,MNIST 数据集上从无防御网络到防御性提取网络的攻击迁移性(平均情况)。当κ = 50,EAD 取得了接近 99% 的攻击成功率,而当κ = 40,C&W 攻击的最高成功率是接近 88%。

腾讯AI Lab参与:基于弹性网络正则化的深度神经网络对抗样本攻击

表 3:在 MNIST 上使用 C&W 攻击和 EAD(L1 规则)的对抗训练。ASR 指攻击成功率。整合 L1 样本补充了对抗训练,并提升了失真方面的攻击难度。完整结果请参见附录材料 1。

论文:EAD: Elastic-Net Attacks to Deep Neural Networks via Adversarial Examples

腾讯AI Lab参与:基于弹性网络正则化的深度神经网络对抗样本攻击

论文地址:https://arxiv.org/pdf/1709.04114.pdf

近来的一些研究已经突出说明了深度神经网络(DNN)面对对抗样本时的脆弱性——人们可以轻松创造出在视觉上难以区分,却能让经过良好训练的模型分类错误的对抗图像。现有的对抗样本生成方法大多基于 L2 和 L∞ 范数去度量,但很少有方法用到了 L1 范数,尽管它有一些优良的性质,例如鼓励生成更为稀疏的对抗噪音。

在本论文中,我们将使用对抗样本攻击 DNN 的过程转化为了使用弹性网络正则化(elastic-net regularized)的优化问题。在这种表示下,当前最佳的 L2 范数攻击算法成为了本文方法的一个特例(在不考虑 L1 范数的情况下)。在 MNIST、CIFAR10 和 ImageNet 上的实验结果表明 EAD 算法可以生成具有很小 L1 失真的对抗样本,并且能在不同攻击场景中实现与当前最佳方法匹敌的攻击成功率。更重要的是,EAD 算法生成的对抗样本有着显著增强的攻击可迁移性,这为如何在对抗机器学习中使用 L1 范数失真以及增强 DNN 的安全性提供了全新的见解。

相关推荐