[关闭]
@wuxin1994 2017-10-31T14:32:03.000000Z 字数 4471 阅读 2640

《Robust Physical-World Attacks on Machine Learning Models》论文笔记

PaperNotes Secure


Title: Robust Physical-World Attacks on Machine Learning Models
Authors: Evtimov, Ivan; Eykholt, Kevin; Fernandes, Earlence; Kohno, Tadayoshi; Li, Bo; Prakash, Atul; Rahmati, Amir; Song, Dawn
Publication: eprint arXiv:1707.08945
Publication Date: 07/2017
Origin: ARXIV
Keywords: Computer Science - Cryptography and Security, Computer Science - Learning
Bibliographic Code: 2017arXiv170708945E

概述

 最近的研究中,许多对抗样本构造方法在真实自然世界效果不好。已有的对抗攻击研究在现实世界中,往往不能使分类模型误分类,或者只在非常有限的情况比如复杂原始图像经修改后打印出来才能达到对抗攻击的目的。
 本论文要点如下:
1. 提出Robust Physical Perturbations(RP2)算法,能产生鲁棒且自然有效的对抗扰动。
2. 使用RP2算法用两种方式构造对抗攻击:
-- subtle perturbations:对整个标志进行微小的、很难探测到的改动。把整个受到攻击后的图片打印后覆盖到原标志上面,尺寸和原图一样。
-- camouflage perturbations:以涂鸦或艺术画的形式对原图进行可见的改变。攻击者直接将扰动攻击打印出来,然后贴到已经存在的标志上面。
3. 因为目前缺乏衡量自然界对抗攻击效果的标准方法,因此论文提出了一种评估方法。

Introduction

这一部分先总结了三种对抗样本的生成方法:

这三种方法都假设能得到输入向量的数字层面的特征,这在自然情况自动汽车背景下不适用。同时,它们都需要perturbation程度比较小且不可见,因为直接以数字向量作为神经网络输入时,这种微小的perturbation不会被破坏。但是,如果把修改后的样本打印到纸张上,那么这种在自然界重建perturbation的过程就会在每个步骤造成信息的损失。因此(J. Lu, H. Sibai, E. Fabry, and D. Forsyth, “No need to worry about adversarial examples in object detection in autonomous vehicles,” arXiv preprint arXiv:1707.03501, 2017.)证实了这些方法在真实世界中效果不好。

然后介绍了本论文中两种攻击方式的由来:

Experiment

数据集:LISA数据集,包含47种不同的路标图片,在本实验中重设尺寸为32×32
实验用TensorFlow工具构建分类器,神经网络结构为:三成带有全连接层的卷积层。最终的分类器准确率为91%。
攻击过程的选择,本实验只能修改测试集数据,即是evasion attacks
攻击流程:
1. 得到没有对抗perturbation的干净目标路标图
2. 预处理路标图(维度等)将之作为分类器的输入
3. 用攻击算法处理分类器和提取的路标图片
4. 用映射函数在路标上输出相应的对抗perturbation的物理位置
5. 构建数字对抗perturbation,并基于上面函数的输出将这个改动应用到物理目标中。

自然对抗perturbation的评估方法:
受自然情况下环境条件、空间限制、样本构建误差、维度变化和不可探测的物理限制等影响,在评估对抗样本效果时,论文考虑了三个主要的方面:距离、角度和维度

Robust Physical Perturbations(RP2)算法:
是一种优化的扰动生成方法,在untarget对抗攻击时,目标函数为
argmin λ||δ||p − J(fθ(x + δ), y),即是让加入扰动后的输出损失越大越好。
在target对抗攻击时,目标函数为
argmin λ||δ||p + J(fθ(x + δ), y0),即是让加入扰动后输出损失与特定目标差别越小越好。
其中λ都代表对扰动规模的限制。

Future work

  1. 因为论文用的交通标志比较有限,考虑使用更多的交通标志完成target classification attack。
  2. 增加一种扰动补偿的步骤到已有的对抗攻击生成流程中。
  3. 在更多现实场景下测试算法,比如标志遮挡。
  4. 因为自动汽车的视觉次级系统主要有两个组成部分:一个是目标探测器,一个是分类器。本文主要是研究了对分类器的攻击,但是对目标探测器的攻击也可以达到攻击目的。(P. Viola and M. Jones, “Rapid object detection using a boosted cascade of simple features,” in Computer Vision and Pattern Recognition, 2001.CVPR 2001. Proceedings of the 2001 IEEE Computer Society Conference on, vol. 1. IEEE, 2001, pp. I–I.)和(P. F. Felzenszwalb, R. B. Girshick, D. McAllester, and D. Ramanan, “Object detection with discriminatively trained part-based models,” IEEE transactions on pattern analysis and machine intelligence, vol. 32, no. 9,
    pp. 1627–1645, 2010.)

问题

  1. 还没有实验证明,对原始数据perturbation的程度应该是多少才不至于被人类观察者注意到。
  2. 构建perturbation的时候,如果只讲这种对抗攻击的信息体现在黑白灰度层面而不是彩色,可能会让生成的对抗样本更加robust。
添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注