@wuxin1994 2017-10-09T14:20:44.000000Z 字数 1920 阅读 1826

《Adversarial Attacks on Neural Network Policies》论文笔记

PaperNotes Secure

Title:
Adversarial Attacks on Neural Network Policies
Authors:
Huang, Sandy; Papernot, Nicolas; Goodfellow, Ian; Duan, Yan; Abbeel, Pieter
Publication:
eprint arXiv:1702.02284
Publication Date:
02/2017
Origin:
ARXIV
Keywords:
Computer Science - Learning, Computer Science- Cryptography and Security, Statistics - Machine Learning
Bibliographic Code:
2017arXiv170202284H

这篇文章主要内容是在增强学习背景下的对抗攻击。

Abstract

众所周知，对于输入是由攻击者恶意构建来使分类错误的样本时，机器学习分类模型很容易受到攻击。这种对抗样本在计算机视觉应用方面得到了广泛的研究。这篇文章表明了对抗攻击在目标神经网络的策略是增强学习时也是有效的。具体来讲，文章显示已经存在的对抗样本构造方法能够显著降低训练好的策略在测试阶段的表现。本文模型给网络策略的输入添加弱小扰动来实现对抗。对于白盒和黑盒设置中的对抗性示例攻击的一个子类，描述了任务和训练算法的脆弱程度。不论学习任务和训练算法是什么，对数据加入人类无法感知的微小对抗扰动都会有performance上的显著下降。

Content

introduction

1. 增强学习和深度学习背景，能实现end-to-end的策略学习
2. 监督学习背景下，神经网络容易受到对抗攻击的影响。因此提出，是否这种对抗攻击对应用深度增强学习策略的神经网络仍然有效。
3. 比较了监督学习与增强学习。监督学习中训练样本的固定数据集在学习过程中得到处理，在增强学习中，这些例子是在整个训练过程中收集的。因此提出，会不会在黑盒攻击中，因为攻击者不知道目的网络的策略，所以无法构成攻击。
4. 提出本论文的两个contribution：
    1). 描述影响对抗样本有效性的两个因素：增强学习算法所用的策略  以及  是否攻击者知道网络（白盒还是黑盒）
    2). 探究了在同一策略下的黑盒攻击，即是攻击者只知道训练环境，但是随机初始化方法和学习算法等都不知道。

1. 机器学习的安全和私密性方面，有一系列以对抗的形式去理解模型的行为和学习算法的工作。
2. 构造对抗样本所需计算资源比较小，只需要得到模型预测的标签即可，因此可能应用到现实攻击目标中去。

Preliminaries

1. Adversarial example
    FGSM：fast gradient sign method，这是一种在计算机视觉分类领域产生有效对抗样本的方法。
    构造对抗样本的核心思想，就是要最大化由对抗样本扰动带来的对模型的干扰，同时，也要使这些扰动的规模有限，以使人类观察者不容易注意到。
2. deep reinforcement learning：DQN,TRPO,A3C