@wuxin1994 2017-10-17T13:36:02.000000Z 字数 1940 阅读 4890

《Towards Deep Learning Models Resistant to Adversarial Attacks》论文笔记

PaperNotes Secure

Citation

Madry A, Makelov A, Schmidt L, et al. Towards Deep Learning Models Resistant to Adversarial Attacks[J]. 2017.

Motivation

深度学习模型应用到了多种安全性要求较高的领域，现在对对抗样本的各种研究显示，目前的训练出来的神经网络模型还不够稳定，即使是效果最好的神经网络都会受到对抗样本的影响。这说明了目前的神经网络训练并没有一个稳定训练的方法。
目前包括defensive distillation、feature squeezing、adversarial training等defense mechanism虽然能在一定程度上增强神经网络模型的稳定性，但是却具有不可解释性——对于这些方法最终具有的效果不能给出明确的原因。因此，既不能确认一个对抗方法构建的攻击样本效果是否是最好的，也不能针对特定的攻击方法提出denfense mechanism。

Contribution

文章以robust optimization的视角研究研究神经网络的对抗稳定性。提出natural saddle point formulazation作为掌握对抗攻击安全性概念的核心公式。这个公式的应用可以解决两个问题：一是可以能让神经网络达到的安全性更加可解释；二是能将目前提出的大多数攻击方法和防御策略放入到一个公共的理论框架中。
鞍点公式如下，文章以这个公式为核心：

$min_θρ(θ)\;,\;where\; ρ(θ) = E_{(x,y) ~ D}[max_{δ∈S} L(θ, x + δ, y) ]$
【这个公式的含义可以分为两个部分来理解：一是内圈的最大化问题————旨在找到一个对抗样本，让损失函数尽可能大，也就是一个攻击已知神经网络的问题；另一个是外圈的最小化问题————旨在找到一组神经网络模型的参数，让内圈收到攻击后的样本实现损失尽可能小，也就是一个使用对抗训练训练一个更加稳定的神经网络分类器的问题。同时，这个鞍点公式也给理想稳定模型设立了目标，能够量化模型的稳定性】
文章的contribution如下：
1. 对上面提到的鞍点公式进行了一些优化研究。利用first-order方法解决这个公式的一些非凸非凹性。
2. 研究了神经网络结构对对抗稳定性的影响，发现模型能力起着重要作用。[这个模型能力指的是除了正确分类样本之外的能力，即是鞍点问题中决策边界更加稳定]
3. 基于上述观点，在MNIST和CIFAR10数据集实验，训练得到的网络能够在许多对抗攻击下保持稳定。

统一对抗和防御的观点

过去的工作主要集中在两个主要问题：

如何产生更强的对抗样本
如何训练更稳固的模型，即是让对抗者更难找到对抗样本

$min_θρ(θ)\;,\;where\; ρ(θ) = E_{(x,y) ~ D}[max_{δ∈S} L(θ, x + δ, y) ]$
因此从整体来看，对照上面的鞍点公式，第一个构造对抗样本的问题，不论是FGSM方法或者PGD方法（多步FGSM方法）
$x^{t+1}=\prod_{x+S}(x^t+α\ sgn(\nabla_xL(θ, x, y)))$
就是鞍点公式中的内圈最大化问题；第二个问题包括传统的对抗训练或者更加精心设计的防御策略，也就是解决鞍点公式中的外圈最小问题。

构建万能稳定的网络结构

通过上面对鞍点公式的简单解读，可以将对抗和防御结合起来。但是，如何优化这个公式，得出最终的解也是个问题。因为在优化最大值问题是，目标函数可能是非凹的。这个问题可以通过linearize the inner maximization问题来实现。文章通过PGD工具——一种解决大规模约束优化问题的标准方法，从MNIST和CIFAR数据的大量随机点开始PGD，结果发现这样得到的损失值确实能达到最大优化的目的。
从实验结果来看，对五个不同的样本训练时，用对抗训练的方式和传统的模型训练，从不同的初始值开始，对抗训练得到的结果比较统一，说明用随机初始的方法得到的结果是可靠的，误差比较小。

此处输入图片的描述
而在训练稳定模型时，用这种从多种随机点取PGD方法得到的对抗样本进行训练，显示也能迅速收敛到最大值。说明这种方法可以实现稳定模型的训练。

总结

文章主要通过解决对鞍点公式在非凸非凹的时候的优化问题，给构建稳定的深度神经网络模型提供了理论支撑。这个方法的效果通过实验证明的确是有用的，通过随机restart和PGD方法的结合，能够在训练过程中很好地解决这个优化问题。不过这个方法在MNIST数据集上的效果相对比在CIAFR数据集上更好，因此还可以进一步优化。