@Plams 2018-09-27T02:21:08.000000Z 字数 14712 阅读 532

遥感 2018年9月26日

1.黑白盒敌方条件下主流深度学习网络攻击方法与工具研究

针对深度学习网络的攻击主要有两类：

基于梯度的白盒攻击，该类方法在知悉目标网络的结构与内部参数的白盒场景下，利用神经网络反向传播的特性，通过梯度反向传播产生对抗噪声，得到攻击样本. 原始的FSGM的核心原理是通过计算 $\eta = \epsilon sign(\nabla_x J(\theta , x, y))$ 生成扰动. 以此为基础发展出的算法有: I-FGM, ILCM, JSMA, Carlini Attacks,Deepfool 等.

I-FGM : $x^{adv}_{0} = x, x^{adv}_{N+1} = Clip_{ x,\epsilon}( x^{adv}_{N} + \epsilon sign(\nabla_x J(\theta , x^{adv}_{N}, y))).$

DeepFool: $x^{adv}_{0} = x, x^{adv}_{N+1} = x^{adv}_N -\epsilon \frac{f(x^{adv}_N)}{\Vert \nabla f(x^{adv}_N) \Vert ^2}\nabla f(x^{adv}_N)$
基于遗传算法的攻击，该类方法可在只知悉目标网络每一次的输出分类概率的黑盒场景下，通过不断的遗传算法迭代，得到能够扰动目标网络判断标签的对抗样本. 核心是求解如下的一个优化问题:

$\mathop{\arg\max}_{\eta} f_{cover} (x_{stego}+ \eta ) \quad where \parallel\eta\parallel_0 \le dim.$

Szegedy提出的Directly Encoding attack是该方法的基础, 而后的One pixel attack采用了 Evolutionary Algorithms 来求解这个优化问题.

2.针对主流AI目标检测网络的图像目标隐藏方法研究

主流的AI目标检测网络有Faster R-CNN、YOLO、SSD、R-FCN等，针对主流的目标检测网络，有如下三种图像目标隐藏方法。

基于对抗噪声添加的敏感目标伪装。在黑盒、白盒的不同情境下，可采用不同的对抗噪声生成模式，产生能够使得相应的目标检测网络判断错误的对抗噪声，且Quasi-imperceptible即从人类感知而言扰动对图像影响很小，近似无法察觉。
基于GAN的诱骗或覆盖混淆伪装.对于敏感目标，采用GAN生成或者事先准备好的伪装覆盖模板，使得主流目标检测网络无法识别到敏感目标，并且能在接收端完整恢复原始图像。在一些非敏感位置，添加采用GAN生成或者事先准备好的诱骗目标模板，使得主流目标检测网络识别到人工添加的诱骗目标，并能够在接收端完整恢复原始图像。

敏感目标的隐藏.

使用信息隐藏技术, 将需要待处理区域的内容与坐标等需要存储的信息保存在遥感图像原图中. 对于经过处理后的图像, 对于人类近似无法察觉, 对于通用隐写分析难以进行识别.

主流信息隐藏工具: 基于数字图像的隐写通常可分为空域和频域两种，

典型的空域隐写算法有LSB替换, LSB匹配, HUGO, HILL, WOW, S_UNIWARD, MiPOD
典型的变换域的隐写算法有 F5, MB, J_UNIWARD

通过小幅度修改数字载体得到含密载体是实现隐写的主要手段，其中，STC是目前主流的隐写手段。就数字图像载体而言，以内容自适应隐写为新兴发展方向.

隐写分析

隐写分析作为隐写的对立面，已从早期的专用隐写分析发展到今天的通用盲检测

专用隐写分析. 基于图像差值直方图, 基于预判DCT图像块嵌入位置
通用隐写分析. 基于图像高阶统计量的方法，基于奇异值分解的方法，基于Markov转移矩阵的方法，基于局部二值模式的方法,基于富模型的方法

采用深度学习隐写分析方法. Xu's Net拿来当baseline即可, Ye's Net是state-of-the-art

(<基于深度学习的隐写分析研究> wuyanhong)Ｔａｎ等［８７］提出使用在预训练部分使用带自动编码器的ＣＮＮ，实验结果表明它可以检测０．４ｂｐｐ的ＨＵＧＯ，但是性能还是次于空域富模型。Ｑｉａｎ等［７９］提出使用高斯非线性激活函数的ＣＮＮ结构。此后，文献［８０］提出载体图和隐写图之间的差异很小，尤其是在低嵌入率情况下，训练ＣＮＮ框架会非常困难，因此他们提出了基于迁移学习的结构，在高嵌入率情况下预训练网络，然后使用在高嵌入率的情况下训练得到的模型参数来初始化低嵌入率情况下的检测模型，然后对低嵌入率情况下的检测模型训练进行微调。Ｐｉｂｒｅ等［８８］提出了一种适用于隐写分析的ＣＮＮ模型。包含高通滤波预处理和两层卷积层，相比Ｑｉａｎ等［７９］的网络减小了深度和增加了宽度。同时去掉了池化操作，实验表明，此文提出的网络模型只在特定的隐写算法和不变的嵌入密钥才有效，而实际上嵌入密钥一般是不同的，在这种情况下，该模型检测性能会大幅下降。Ｘｕ等［８１］提出的ＣＮＮ框架针对Ｓ－ＵＮＩＷＡＲＤ和ＨＩＬＬ检测取得了与目前传统隐写分析方法中最好的带集成分类器的富模型相媲美的效果。文中使用了ＢａｔｃｈＮｏｒｍａｌｉｚａｔｉｏｎ（ＢＮ）［９５］防止训练陷入局部最小值，同时为了防止过拟合，前两层使用了ＴａｎＨ激活函数，而在高层使用１ｘ１卷积，使用五个训练好的模型集成输出判别结果。文献［８９］进一步改进文献［８１］的结构，然后使用集成分类器［９］作为高层分类器提高性能。Ｘｕ［９（）］将ＣＮＮ框架用于检测质量因子为７５和９５的Ｊ－ＵＮＩＷＡＲＤ，并对比了几种不同的池化方式的影响和提出了一个２０层的网络，在常规数据集上相比任何传统方式的检测性能都要优秀。Ｓｅｄｉｇｈｉ和Ｆｒｉｄｒｉｃｈ［８２］提出了一个直方图层，用于仿真ＰＳＲＭ，文中，选取高斯核作为直方图ｂｉｎ，实验结果表明，使用ＣＮＮ训练出来的卷积核可以降低ＰＳＲＭ的维数。Ｙｅ等［９１］将空域富模型使用的全部３０个卷积核集成起来，同时使用了ＴＬＵ激活函数，结合选择通道信息，设计出了一个１０层的网络结构，实验表明它相对ｍａｘＳＲＭ取得了一定的效果。Ｙａｎｇ等［９２］提出了一个组合了选择通道信息的网络框架，将选择通道信息作为权值逐个加权到第一层卷积输出的特征图的每个位置上，实验表明该方法相对没有使用选择通道的网络框架有一定提升

3.反AI目标发现与隐藏样本库建设

基于反AI目标发现的目标隐藏和诱骗目标添加的要求，建设对应的样本库。

测试用遥感图像样本库，用以测试目标检测网络的表现，以及测试隐藏图像目标后主流AI目标检测网络的检测表现
非敏感目标样本库，用以基于非敏感目标覆盖的敏感目标伪装
敏感目标样本库，用以基于诱骗敏感目标添加的混淆检测
对抗噪声样本库
不同生成方法的遥感图像敏感目标隐写样本库

4.反AI分析的遥感大数据目标伪装处理和编码传输方法

基于针对主流AI目标检测网络的图像目标隐藏方法，结合遥感大数据目标的特性（详细的哪些特性），

对于常用遥感大数据目标检测网络分别采用基于对抗噪声添加的敏感目标伪装、基于非敏感目标覆盖的敏感目标伪装以及基于诱骗敏感目标添加的混淆检测，并且制定相应的编码传输方法，使得能够满足处理、传输的实时性要求。
对于遥感图像的在轨分发和地面分发的压缩和加密过程中添加伪装处理，并保证压缩、加密、伪装的互操作性和格式兼容性

5.遥感图像隐藏目标的自动识别与无损还原方法

对于接收到的进行了目标隐藏的遥感图像，自动扫描遥感图像的各个区块，判断其属于基于对抗噪声添加的敏感目标伪装、基于非敏感目标覆盖的敏感目标伪装、基于诱骗敏感目标添加的混淆检测还是并未进行目标伪装。之后根据对应的方法，选择相应的伪装区块恢复方法，使得能够满足接受数据的自动恢复和无损还原。

无损的在轨分发. 采用无损隐写和无损标记技术, 在保证无损的前提下进行无损伪装, 并实现载体与目标的自动识别与无损还原
有损的地面分发. 采用有损的伪装与混淆技术, 提高传输分发的效率, 并实现载体与目标的自动识别与还原

6.反AI图像目标伪装处理与还原系统演示验证

整合整个流程的各个部分，完成如下的系统验证过程：原始遥感图像->自动化的敏感目标的伪装和混淆目标的生成->实时的编码处理与传输->自动且无损的遥感图像还原。使用测试用的遥感图像样本库，验证反AI图像目标伪装处理与还原系统的可用性，并采用常用遥感大数据目标检测网络对伪装后的遥感图像进行检测，测试目标伪装和混淆的成功率是否达到目标要求. 最后需要结合现有的遥感图像分发系统, 进行整体的系统验证

机器学习在军方中的应用--论文相关

没找到学位论文这种的

AlphaGo技术原理分析及人工智能军事应用展望引用中也有几个相关的

人工智能在军事领域的渗透与应用思考

MNPOS:军事网络舆情分析系统研究

基于深度学习的军事智能决策支持系统

由于机器学习的发展引发新的安全问题反AI的必要性

俄罗斯智库 | 人工智能在军事领域的发展现状及应用前景

人工智能叩开智能化战争大门

美国计划斥资8300万美元加强 AI 军事投入

人工智能在军事领域的渗透与应用思考

李飞飞极力反对AI用于武器，谷歌将发布军事AI原则

智能化感知与信息处理
智能化指挥控制辅助决策
无人化军用平台
仿生机器人
扩展人的体能技能和智能

现实场景

图像识别系统错识道路指示牌：

谷歌图像分类器把模型龟当成来复枪：

错把行动的小猫当成显示器：

NLP机器学习模型安全性及实践

特斯拉相关

关于自动驾驶汽车的安全问题，国内外众多安全公司和研究人员已经做了很多次详细的分析和现场演示。例如在ISC 2016上，来自浙大的徐文渊教授团队和360汽车信息安全实验室共同演示的针对特斯拉Model S汽车自动驾驶技术的攻击，通过干扰特斯拉汽车的三种传感器(超声波传感器、毫米波雷达和前置高清摄像头)，可以实现强制停车、误判距离、致盲等多种不安全的情况。

以上都是黑客主动发起的攻击，自动驾驶自身也存在着缺陷。5月发生在美国发生的自动驾驶系统致人死亡的案例也引发了社会的大量关注：

按照特斯拉的解释，这起事故发生时，车主布朗正驾驶Model S行驶在一条双向、有中央隔离带的公路上，自动驾驶处于开启模式，此时一辆牵引式挂车与Model S垂直的方向穿越公路。特斯拉表示，在强烈的日照条件下，驾驶员和自动驾驶系统都未能注意到牵引式挂车的白色车身，因此未能及时启动刹车系统。而由于牵引式挂车正在横穿公路，且车身较高，这一特殊情况导致Model S从挂车底部通过时，其前挡风玻璃与挂车底部发生撞击，导致驾驶员不幸遇难。

正如这起事件暴露出来的问题，当车身周围传感器和车前的毫米波雷达都失灵时(当然该案例中这传感器和毫米波雷达并未失灵，而是由于毫米波雷达安装过低，未能感知到底盘较高的卡车)，唯一能依靠的输入就是车窗前方的高清摄像头。我们来看看事发当时的街景现场

以及被撞的卡车样式(注意白色车身上什么标致都没有)

由于车前的高清摄像头为长焦镜头，当白色拖挂卡车进入视觉区域内的时候，摄像头只能看到悬浮在地面上的卡车中部，而无法看见整个车辆，加上当时阳光强烈(蓝天白云)，使得自动驾驶统无法识别出障碍物是一辆卡车，而更像是飘在天上的云。再加上当时特斯拉车主正在玩游戏，完全没有注意到前方的这个卡车，最终导致悲剧发生。

结合刚才的图像识别对抗样本和浙大徐文渊教授团队的研究成果，我们完全有可能设计一个让自动驾驶系统发生车祸的陷阱，例如在某个车辆上喷涂吸收雷达波的涂料以及带有迷惑性的图案，让自动驾驶系统无法识别出前方的物体;再比如，找个夜深人静的夜晚在道路标识上加一些“噪音”，人类可以正常识别，而自动驾驶系统却会误判等等。

Hidden Voice Commands

https://www.usenix.org/system/files/conference/usenixsecurity16/sec16_paper_carlini.pdf

来自美国Georgetown University的Tavish Vaidya博士分享了隐匿的语音命令这一工作。

对抗性语音攻击则是攻击者构造一段语音，使人耳和语音识别机器识别的类型不同。语音攻击和图像攻击最大的不同在于，它希望保证对抗性语音和原语音差距越远越好，而不是保持对抗性语音和原语音的相似性。该团队依据现实情况，分别提出了黑盒攻击和白盒攻击两种类型。在他们的实验中，扬声器发出一段人类无法辨认的噪音，却能够在三星Galaxy S4以及iPhone 6上面被正确识别为相对应的语音命令，达到让手机切换飞行模式、拨打911等行为。

名词解释

对抗图像/对抗样本（Adversarial example/image）：对抗样本是对干净图像进行处理后的样本，被故意扰乱（如加噪声等）以达到迷惑或者愚弄机器学习技术的目的，包括深度神经网络。

对抗扰动（Adversarial perturbation）：对抗扰动是添加到干净图像中的噪声，使其成为一个对抗样本。

黑盒攻击（Black-box attacks）：

黑盒攻击是在不了解一个目标模型的具体情况下，针对该模型，生成了对抗样本（测试阶段）。
攻击者并不知道机器学习所使用的算法和参数，但攻击者仍能与机器学习的系统有所交互，比如可以通过传入任意输入观察输出，判断输出。

白盒攻击（White-box attacks）：

白盒攻击假设具备了目标模型的完整知识，包括其参数值、体系结构、训练方法，在某些情况下还包括训练数据。
攻击者能够获知机器学习所使用的算法，以及算法所使用的参数。攻击者在产生对抗性攻击数据的过程中能够与机器学习的系统有所交互。

一次性/单步方法（One-shot/one-step methods）：一次性/单步法通过执行单步计算产生对抗性扰动，例如计算一次模型的损失梯度。与之相反的是迭代方法（ iterative methods），它多次执行相同的计算以得到一个单独的扰动。后者的计算成本通常很高。

可转移性（Transferability）：可转移性指的是一个对抗样本具有可转移能力，即使是除了用来产生它的模型以外，它仍然有效。

通用扰动（Universal perturbation）：通用扰动能够在任何图像上扰动并高概率欺骗一个给定模型。值得注意的是，通用性指的是一种与图像无关的扰动性质，区别于有很好的可转移性。

AI对抗国内外研究现状

Threat of Adversarial Attacks on Deep Learning in Computer Vision: A Survey

https://arxiv.org/abs/1801.00553

现有攻击方法

1.Box-constrained L-BFGS https://arxiv.org/abs/1312.6199

Szegedy等人首次证明了可以通过对图像添加小量的人类察觉不到的扰动误导神经网络做出误分类。他们首先尝试求解让神经网络做出误分类的最小扰动的方程。但由于问题的复杂度太高，他们转而求解简化后的问题，即寻找最小的损失函数添加项，使得神经网络做出误分类，这就将问题转化成了凸优化过程。下面为图例：

2.Fast Gradient Sign Method (FGSM) https://arxiv.org/abs/1412.6572

Szegedy 等人发现可以通过对抗训练提高深度神经网络的鲁棒性，从而提升防御对抗样本攻击的能力。GoodFellow[23] 等人开发了一种能有效计算对抗扰动的方法。而求解对抗扰动的方法在原文中就被称为 FGSM。FGSM方法证实了现代深层神经网络的设计的高维线性性。

Kurakin等人提出了 FGSM 的「one-step target class」的变体。通过用识别概率最小的类别（目标类别）代替对抗扰动中的类别变量，再将原始图像减去该扰动，原始图像就变成了对抗样本，并能输出目标类别。

3.Basic & Least-Likely-Class Iterative Methods https://arxiv.org/abs/1607.02533

one-step 方法通过沿一方向做一大步运算，增大分类器的损失函数而进行图像扰动，这个想法的一个直观的扩展为通过多个小步增大损失函数的变体，从而我们得到 Basic Iterative Methods（BIM）。而该方法的变体和前述方法类似，通过用识别概率最小的类别（目标类别）代替对抗扰动中的类别变量，而得到 Least-Likely-Class Iterative Methods(ILCM)，由该方法生成的对抗样本已经让Inception v3模型受到了严重影响。

4.Jacobian-based Saliency Map Attack (JSMA) https://arxiv.org/abs/1511.07528

对抗攻击文献中通常使用的方法是限制扰动的l∞或l2范数的值以使对抗样本中的扰动无法被人察觉。但 JSMA提出了限制扰动的l0范数的方法来产生对抗性攻击。在物理上，这意味着目标是只修改图像中的几个像素，而不是扰乱整个图像来欺骗分类器。

算法生成所需的对抗性图像的关键可以理解如下。该算法一次修改一个干净图像的像素，并监测变化对结果分类的影响。通过使用网络层的输出的梯度来计算一个显著性图来执行监控。在这张图中，一个较大的值显示出了一个较高的可能性预测成目标类别，而非正确的类别。因此，该算法执行有针对性的欺骗。一旦计算出像素图，算法选择最有效的像素来欺骗网络并改变它。这个过程会重复，直到最大允许的像素数量在对抗性图像中被改变或者在欺骗成功。

5.One Pixel Attack https://arxiv.org/abs/1710.08864
这是一种极端的对抗攻击方法，仅改变图像中的一个像素值就可以实现对抗攻击。Su等人使用了差分进化算法，对每个像素进行迭代地修改生成子图像，并与母图像对比，根据选择标准保留攻击效果最好的子图像，实现对抗攻击。这种对抗攻击不需要知道网络参数或梯度的任何信息。下面为图例：

6.Carlini and Wagner Attacks (C&W) https://arxiv.org/abs/1608.04644

Carlini 和 Wagner[36] 提出了三种对抗攻击方法，通过限制 l∞、l2和l0范数使得扰动近似无法被察觉。实验证明 defensive distillation（后面会说，一种有效缓解对抗攻的方法）完全无法防御这三种攻击。该算法生成的对抗扰动可以从 unsecured 的网络（没有蒸馏）迁移到 secured 的网络（蒸馏）上，从而实现黑箱攻击。

受C&W启发，有学者提出了Zeroth Order Optimization (ZOO)方法，直接估计目标模型的梯度来生成对抗样本。

7.DeepFool https://arxiv.org/abs/1511.04599

Moosavi-Dezfooli 等人通过迭代计算的方法生成最小规范对抗扰动，该算法通过一个小的向量来扰动图像，将位于分类边界内的图像逐步推到边界外，直到出现错误分类。作者证明他们生成的扰动比 FGSM 更小，同时有相似的欺骗率。

8.Universal Adversarial Perturbations https://arxiv.org/abs/1610.08401

诸如 FGSM 、 ILCM 、 DeepFool 等方法只能生成单张图像的对抗扰动，而 Universal Adversarial Perturbations 能生成对任何图像实现攻击的扰动，这些扰动同样对人类是几乎不可察觉的。该论文中使用的迭代方法和 DeepFool 相似，都是用对抗扰动将图像推出分类边界，不过同一个扰动针对的是所有的图像。虽然文中只针对单个网络（ ResNet）进行攻击，但已证明这种扰动可以泛化到其它网络上，尤其是具有相似结构的网络。

此外，作者还扩展了一个方法doubly universal；Khrulkov等也提出了一种方法，将通用扰动作为网络的特征映射的雅可比矩阵的奇异向量，这使得仅使用少量图像就可以实现相对较高的欺骗率。另一种产生通用扰动的方法是Mopuri等的快速特性。它们的方法产生了独立于数据的通用扰动。下面为图例：

9.UPSET and ANGRI https://arxiv.org/abs/1707.01159

Sarkar等人提出了两个黑箱攻击算法，UPSET （ Universal Perturbations for Steering to Exact Targets）和 ANGRI（Antagonistic Network for Generating Rogue Images for targeted fooling of deep neural networks）。UPSET 的能力来源于残差梯度网络，可以为特定的目标类别生成对抗扰动，使得该扰动添加到任何图像时都可以将该图像分类成目标类别。相对于 UPSET 的「图像不可察觉」扰动，ANGRI 生成的是「图像特定」的扰动。它们都在 MNIST 和 CIFAR 数据集上获得了高欺骗率。

10.Houdini https://arxiv.org/abs/1707.05373

Houdini是一种用于欺骗基于梯度的机器学习算法的方法，通过生成特定于任务损失函数的对抗样本实现对抗攻击，即利用网络的可微损失函数的梯度信息生成对抗扰动。除了图像分类网络，该算法还可以用于欺骗语音识别网络（谷歌语音等）。

11.Adversarial Transformation Networks (ATNs) https://arxiv.org/abs/1703.09387

Baluja 和 Fischer训练了多个前馈神经网络来生成对抗样本，可用于攻击一个或多个目标网络。经过训练的模型被称为对抗变换网络(ATNs)。该算法通过最小化一个联合损失函数来生成对抗样本，该损失函数有两个部分，第一部分使对抗样本和原始图像保持相似，第二部分使对抗样本被错误分类。

同样的研究方向， Hayex and Danezis同样用攻击神经网络训练对抗样本进行黑盒攻击，近期结果表明，虽然生成的对抗样本仍旧可察觉和原始图像的区别，但是欺骗率非常的高。

除分类问题以外的对抗攻击

1.Attacks on Autoencoders and Generative Models 在自编码器和生成模型上的攻击

Tabacof等研究了自动编码器的对抗性攻击，并提出了一种扭曲输入图像(使其对抗性)的技术，从而误导自动编码器重构完全不同的图像。他们的方法攻击了神经网络的内部表示，使得对抗性图像的表示与目标图像相似。然而，报道称，自动编码器似乎比典型的分类器网络更能抵御对抗性攻击。Kos等还探讨了获得深度成性模型的对抗样本的方法，例如变分自动编码器(VAE)和VAE-生成的对抗性网络(VAE- gans)。GANs，例如方法现在在计算机视觉应用程序中变得非常流行，因为它们能够学习数据分布并使用这些分布生成真实的图像。作者介绍了针对VAE和VAE- gans的三种不同类型的攻击。

2.Attack on Recurrent Neural Networks 在循环神经网络上的攻击

Papernot等成功地生成了递归神经网络的对抗性输入序列。Papernot等证明了为前馈神经网络计算对抗样本的算法(例如FGSM)也适用于欺骗 RNNs。长短时记忆(LSTM) RNN体系结构也成功被欺骗。

3.Attacks on Deep Reinforcement Learning 深度强化学习上的攻击

Lin等提出了两种不同的针对深度强化学习训练的代理的对抗性攻击。在第一种攻击中，被称为策略定时攻击，对手通过在一段中的一小部分时间步骤中攻击它来最小化对代理的奖励值。提出了一种方法来确定什么时候应该制作和应用对抗样本，从而使攻击不被发现。在第二种攻击中，被称为迷人攻击，对手通过集成生成模型和规划算法将代理引诱到指定的目标状态。生成模型用于预测代理的未来状态，而规划算法生成用于引诱它的操作。这些攻击成功地测试了由最先进的深度强化学习算法训练的代理。

Huang等证明了FGSM也可以用于在深度强化学习的背景下显著降低训练策略的性能。他们的威胁模型认为对手能够对政策的原始输入产生微小的扰动。所进行的实验表明，即使在黑箱场景中，也很容易用对抗样本欺骗将神经网络策略。关于这项工作的视频和进一步的细节可以在http://rll.berkeley.edu/adversarial/上找到。

5.Attacks on Semantic Segmentation and Object Detection 在语义切割和物体检测上的攻击

语义图像分割和对象检测属于计算机视觉的主流问题。Metzen等[67]受Moosavi-Dezfooli的启发，发现了图像近似不可察觉扰动的存在，它可以欺骗一个深层的神经网络，从而明显地破坏图像的预测分割。此外，他们还表明，可以计算出噪声向量，它可以从分割的类中移除特定的类，同时保持图像分割大部分不变(例如，从道路场景中移除行人)。

Arnab等也评估了FGSM基于语义分割的对抗性攻击，并指出对这些攻击的许多观察并没有直接转移到分割任务中。

Xie等计算了在观察下的语义分割和对象检测的对抗样本，可以将这些任务定义为在图像中对多个目标进行分类——目标是一个像素或一个可接受的分割区域，以及在检测中的 object proposal。他们的方法，称为密集对手生成，通过一组 pixels/proposal来优化一个损失函数，以产生对抗样本。所生成的样本被测试来欺骗各种基于深度学习的分割和检测方法。他们的实验评价不仅证明了目标网络的成功欺骗，还表明了所产生的扰动在不同的网络模型中得到了很好的推广。在图4中，根据该方法，展示了一个用于分割和检测的网络欺骗的典型样本。下面为图例：

对抗攻击防御

目前，在对抗攻击防御上存在三个主要方向：

1.在学习过程中修改训练过程或者在测试阶段修改的输入样本。

2.修改网络，比如：添加更多层/子网络、改变损失/激活函数等。

3.当分类未见过的样本时，用外部模型作为附加网络。

这些方向具体又可分为（a）完全抵抗（Complete），即能够分对对抗样本的原始类别（b）仅探测方法（Detection only），即只鉴别出哪些是对抗样本。

修改训练过程/ 输入数据

1.Brute-force adversarial training 蛮力对抗训练

对抗训练是抵御对抗样本攻击的第一道防线。通过不断输入新类型的对抗样本并执行对抗训练，从而不断提升网络的鲁棒性。为了保证有效性，该方法需要使用高强度的对抗样本，并且网络架构要有充足的表达能力。这种方法需要大量的训练数据，因而被称为蛮力对抗训练。很多文献中提到这种蛮力的对抗训练可以正则化网络以减少过拟合 [23,90]，进而增强网络的抵抗能力。然而，Moosavi-Dezfooli[16] 指出，无论添加多少对抗样本，都存在新的对抗攻击样本可以再次欺骗网络。

2.Data compression as defense 数据压缩

注意到大多数训练图像都是 JPG 格式，Dziugaite等人使用 JPG 图像压缩的方法，减少FGSM对抗扰动对准确率的影响。实验证明该方法对部分对抗攻击算法有效，但通常仅采用压缩方法是远远不够的，并且压缩图像时同时也会降低正常分类的准确率，而微小的压缩又不能够去除对抗扰动。

3.Foveation based defense 基于中央凹机制的防御

Luo等人提出用中央凹（foveation）机制可以防御 L-BFGS 和 FGSM 生成的对抗扰动，其假设是基于CNN分类器训练大量数据集对于图像的缩放和转换变动是鲁棒的，而对抗模式不具备这种特性。但这种方法在更强大的攻击下还没被证明有效性。

4.Data randomization and other methods 数据随机化方法及其他方法

Xie等人发现对训练图像引入随机重缩放可以减弱对抗攻击的强度，其它方法还包括随机 padding、训练过程中的图像增强等。

修改网络

首先，是几种完全抵抗方法，然后再是仅探测方法。

5.Deep Contractive Networks 深度压缩网络

人们观察到简单地将去噪自编码器（Denoising Auto Encoders）堆叠到原来的网络上只会使其变得更加脆弱，因而 Gu 和 Rigazio[24] 引入了深度压缩网络（Deep Contractive Networks），其中使用了和压缩自编码器（Contractive Auto Encoders）类似的平滑度惩罚项。

6.Gradient regularization/masking 梯度正则化/ 遮罩

Ross 和 Doshi-Velez使用输入梯度正则化以提高对抗攻击鲁棒性 [52]，方法训练可微模型(如深度神经网络)，同时惩罚导致输出相对于输入的变化程度。这样一个小的对抗扰动就不会对输出有很显著的影响。该方法和蛮力对抗训练结合有很好的效果，但计算复杂度太高，在很多场合已经弃用。

在此之前，Lyu等人也使用了惩罚网络模型在输入方面的损失函数梯度的概念，以对抗基于L-BFGS[22]和FGSM[23]的攻击。类似地，Shaham等人试图通过在每次参数更新时最小化模型在对抗性示例上的损失来改善神经网络的局部稳定性。他们最小化模型在对抗样本数据集的损失，而不是原始数据。在一项相关的工作中，Nguyen和Sinha[44]通过在网络的logit输出中添加噪声，引入了一种基于遮罩的对C&W攻击[36]的防御。

7.Defensive distillation 防守性蒸馏

据Hinton等[166]介绍，distillation （蒸馏）是指将复杂网络的知识迁移到简单网络上。该知识以训练数据的类概率向量形式提取，并反馈给训练原始模型。Papernot[38] 利用这种技术提出了 Defensive distillation，并证明其可以抵抗小幅度扰动的对抗攻击。防御性蒸馏也可以被看作是梯度遮罩技术的一个例子。

8.Biologically inspired protection 生物启发的防御方法

使用类似与生物大脑中非线性树突计算的高度非线性激活函数以防御对抗攻击 [124]。另外一项工作 Dense Associative Memory 模型也是基于相似的机制 [127]。Brendel和Bethge[187]声称，由于计算的数值限制，这些攻击在生物激发的保护上失败了[124]。稳定计算再次让攻击受保护的网络成为可能。

9.Parseval Networks 帕网络

这些网络通过控制网络的全局Lipschitz常数来分层正则化。网络可以被看作是函数(在每一层)的组合，通过对这些函数保持一个小的Lipschitz常数，可以对这些函数对抗小的干扰。

10.DeepCloak

在分类层（一般为输出层）前加一层特意为对抗样本训练的遮罩层。添加的层通过向前传递干净的和对抗性的图像对进行显式的训练，它为这些图像对编码先前层的输出特性之间的差异。它背后的理论认为添加层中最主要的权重对应于网络最敏感的特性(就对抗操纵而言)。因此，在进行分类时，这些特征被强制将添加的层的主导权重变为零。

11.Miscellaneous approaches 混杂方法

包含了多个人从多种角度对深度学习模型的调整从而使模型可以抵抗对抗性攻击。

Zantedeschi等[46]提出使用有界的ReLU[174]来降低图像中对抗性模式的有效性。

Jin等[120]介绍了一种前馈CNN，它使用附加噪声来减轻对抗性示例的影响。

Sun et al.[56]提出了以统计过滤为方法使网络具有鲁棒性的超网络。

Madry et al.[55]从鲁棒优化的角度研究对抗性防御。他们表明，与PGD对手进行对抗性训练，可以成功地抵御一系列其他对手。后来，Carlini等[59]也证实了这一观察。

Na等[85]采用了一种统一嵌入的网络进行分类和低水平相似度学习。该网络使用的是干净图像和相应的对抗性嵌入样本之间的距离。

施特劳斯等人[89]研究了保护网络免受扰动的集成方法。

Kadran等[136]修改了神经网络的输出层，以诱导对对抗攻击的鲁棒性。

Wang et al.[129]，[122]利用网络中的非可逆数据变换，开发了抗敌对神经网络。

Lee等人[106]开发了多种规则化网络，利用训练目标来最小化多层嵌入结果之间的差异。

Kotler和Wong[96]提出学习基于相关性的分类器，该分类器对小对抗扰动具有鲁棒性。他们训练一个神经网络，在一个标准设置中，它可以很好地达到高精确度(90%)。

Raghunathan等[189]研究了具有一个隐藏层的神经网络的防御问题。他们的方法在
MNIST数据集上生成一个网络和一个证书，达到一个防御目的。

Kolter和Wong[96]和Raghunathan等[189]是为数不多的几种可以证明的对抗敌对攻击的方法。考虑到这些方法在计算上不适用于更大的网络，唯一被广泛评估的防御是Madry等人[55]的防御。

仅探测方法

这章介绍了 4 种网络，SafetyNet，Detector subnetwork，Exploiting convolution filter statistics 及 Additional class augmentation。

SafetyNet 介绍了 ReLU 对对抗样本的模式与一般图片的不一样，文中介绍了一个用 SVM 实现的工作。

Detector subnetwork 介绍了用一个子网络来增强目标网络，该子网络训练用于检测输入中的对抗性扰动的二进制分类任务。结果表明，将这种网络附加到模型的内部层并使用对抗性训练可以帮助检测使用FGSM、BIM和DeepFool方法产生的扰动。然而，Lu等[66]后来表明，这种方法再次容易受到反对策的影响。

Exploiting convolution filter statistics 介绍了同 CNN 和统计学的方法做的级联分类器模型在分辨对抗样本上可以有 85% 的正确率。

Additional class augmentation 是Grosse等人提出通过增加一个类来增强潜在目标神经网络模型，将所有敌对的例子分类到这个类别中。

使用附加网络

13.防御通用扰动

Akhtar等人[81]提出了一种防御框架，该框架将额外的预输入层附加到目标网络中，并训练它们对对抗样本进行校正，使分类器对同一图像的干净版本的预测与对抗样本预测相同。通过提取训练图像输入输出差异的特征，对分离的检测器进行训练。利用一个单独训练的网络加在原来的模型上，从而达到不需要调整系数而且免疫对抗样本的方法。

14.基于 GAN 的防御
Lee等人[101]利用生成性对抗网络的流行框架[153]来训练一个对FGSM[23]类攻击健壮的网络。作者建议沿着一个生成网络直接对网络进行训练，该网络试图对该网络产生扰动。在训练过程中，分类器不断尝试对干净和扰动的图像进行正确的分类。我们将此技术归类为附加方法，因为作者建议始终以这种方式训练任何网络。在另一个基于GAN的防御中，Shen等[58]人使用网络的生成器部分来修正一个受干扰的图像。

15.仅探测方法
介绍了 Feature Squeezing、MagNet 以及混杂的办法。
Feature Squeezing 方法用了两个模型来探查是不是对抗样本。后续的工作介绍了这个方法对 C&W 攻击也有能接受的抵抗力。He等[76]也将特征压缩与[175]中提出的集成方法相结合，以显示防御的力量并不总是通过组合它们而增加。

MagNet: Meng和Chen[45]提出了一个框架使用一个或多个外部探测器将输入图像分类为对抗性或干净图像。在培训期间，该框架的目的是学习各种清洁图像。对图片的流行（manifold）测量值来训练，从而分辨出图片是不是带噪声的。

混杂方法（Miscellaneous Methods）：Liang等 [50]训练了一个模型，把所有输入图片当成带噪声的，先学习怎么去平滑图片，之后再进行分类。将图像的摄动处理为噪声，并利用标量量化和空间平滑滤波分别检测这些摄动。将分离的二进制分类器训练为使用所提议的特性的对抗样本检测器。Gebhart和Schrater[92]将神经网络计算视为图中的信息流，并提出了一种利用诱导图的持久同源性检测对抗性扰动的方法。

国内外差距

11种攻击方法中，仅有one_pixel有一名中国作者参与

14种防御方法中，有四篇为中国研究者