[关闭]
@wuxin1994 2017-08-26T08:29:21.000000Z 字数 1950 阅读 335

《Machine Learning as an Adversarial Service:Learning Black-Box Adversarial Examples》论文笔记

PaperNotes Secure


Information

Title:
Machine Learning as an Adversarial Service: Learning Black-Box Adversarial Examples
Authors:
Hayes, Jamie; Danezis, George
Publication:
eprint arXiv:1708.05207
Publication Date:
08/2017
Origin:
ARXIV
Keywords:
Computer Science - Cryptography and Security, Computer Science - Learning, Statistics - Machine Learning
Bibliographic Code:
2017arXiv170805207H

Abstract

  1. 在对神经网络的黑盒攻击方面,过去的攻击方式都利用了对抗样本的“可移植性”——通过对已知的替代神经网络进行白盒攻击产生对抗样本,再将样本作用到目标神经网络中。
  2. 本文引入了一种直接攻击目标黑盒神经网络的方法,并且实验显示这种方法能够产生与输入数据差别不大,但是能被目标神经网络模型错误分类。
    文章引入的攻击方法具有如下特点:
    1) 本文提出的对抗样本生成方法,对当前提出的defence策略有适应性和对抗性;
    2) 样本生成只需要很少的训练数据;
    3) 生成的对抗样本同样具有可移植性,在诸如随机森林、支持向量机等机器学习模型上也有效果。
  3. 实验上,文章进行了三个方面的实验:
    1) 在MNIST数据集上,测试了黑盒攻击对分类模型的效果;
    2) 在CIFAR-10图片数据集上面测试本方法的效果;
    3) 将生成的对抗样本在SVM、K-Nearest Neighbor等机器学习模型上完成测试,证明其生成的对抗样本同样具有可移植性;
    4) 为了证明本文中提出的对抗样本生成方法在实际中也有效果,论文对Amazon模型进行了黑盒对抗攻击。

Contribution

  1. 引入了对目标黑盒网络构建对抗样本的方法;
  2. 评估了目标攻击和非目标攻击,显示都能生成高质量的对抗样本;
  3. 说明了文章提出的对抗样本生成方法可以在未知目标网络结构的情况下发挥作用;
  4. 通过对嘈杂图片的攻击,发现目标模型不能过滤掉不想管背景信息,增强了攻击的效果;
  5. 对两种比较流行的Defence方法——PCA whitening 和 Feature Squeezing,在本文提出的对抗样本前提下,测试了这两种方法的稳定性和有效性,证明了本论文中的攻击方法能弱化这两种方法的defence效果;
  6. 证明了本文方法构造的对抗样本同样具有可移植性;
  7. 与当前效果最好的和黑盒攻击的效果进行了对比,证明了本文提出的攻击方法更加有效且成功,并且将这种攻击方法应用在物理世界中的目的模型——Amazon Machine Learning Prediction;
  8. 提出了一些防御的希望方向——根据原本的输入和对抗样本的统计学角度上的不同来区分对抗攻击,从而达到防御的目的。

Background

Adversarial Attack:最开始是一个优化问题,通过Lp距离度量,可以测量生成的对抗样本和原始输入的相似度,从而限制perturbation的规模。

攻击模型的构建:1)通过 distance measure (L0, L2 or L∞)来限制扰动规模,从而使得最终的对抗样本在一定程度上从视觉上难以分辨。 2)假设模型的背景是黑盒的,即是不知道目的模型的种类、结构、权重和超参数。因为在现实世界中,比如Amazon、Clarifai和Google等,都不会提供白盒信息。3)同时,在模型具有defence策略的情况下,在两个背景条件下进行了评估:一是考虑攻击者不知道目的模型是否已经有defence策略,二是攻击者已经知道了目的模型具有的defence策略。4)在黑盒攻击时,考虑最差的情况,让生成对抗样本的模型只能用很少的一部分输入数据。

数据集:文章实验主要用到的数据集是MNIST和CIFAR-10数据集,相比于ImageNet数据集,他们生成对抗样本更加困难。

作为对抗性服务的机器学习

攻击描述:本文的攻击是通过黑盒目标模型的输出来优化对抗样本生成模型。其整个流程可以描述如下:能够被正确分类的输入图像作为攻击模型的输入。攻击模型给这个输入加入perturbation,输出视觉上难以区分的对抗样本,在将这个对抗样本作为黑盒目标模型的输入时,产生错误的分类结果。

实验是假设知道目的模型的输出情况的,因为即使是在实际中,像谷歌和亚马逊,也会开放能获取神经网络模型输出的API。

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注