[关闭]
@wuxin1994 2017-10-09T14:20:44.000000Z 字数 1920 阅读 350

《Adversarial Attacks on Neural Network Policies》论文笔记

PaperNotes Secure


Title:
Adversarial Attacks on Neural Network Policies
Authors:
Huang, Sandy; Papernot, Nicolas; Goodfellow, Ian; Duan, Yan; Abbeel, Pieter
Publication:
eprint arXiv:1702.02284
Publication Date:
02/2017
Origin:
ARXIV
Keywords:
Computer Science - Learning, Computer Science- Cryptography and Security, Statistics - Machine Learning
Bibliographic Code:
2017arXiv170202284H

这篇文章主要内容是在增强学习背景下的对抗攻击

Abstract

众所周知,对于输入是由攻击者恶意构建来使分类错误的样本时,机器学习分类模型很容易受到攻击。这种对抗样本在计算机视觉应用方面得到了广泛的研究。这篇文章表明了对抗攻击在目标神经网络的策略是增强学习时也是有效的。具体来讲,文章显示已经存在的对抗样本构造方法能够显著降低训练好的策略在测试阶段的表现。本文模型给网络策略的输入添加弱小扰动来实现对抗。对于白盒和黑盒设置中的对抗性示例攻击的一个子类,描述了任务和训练算法的脆弱程度。不论学习任务和训练算法是什么,对数据加入人类无法感知的微小对抗扰动都会有performance上的显著下降。

Content

introduction

1. 增强学习和深度学习背景,能实现end-to-end的策略学习
2. 监督学习背景下,神经网络容易受到对抗攻击的影响。因此提出,是否这种对抗攻击对应用深度增强学习策略的神经网络仍然有效。
3. 比较了监督学习与增强学习。监督学习中训练样本的固定数据集在学习过程中得到处理,在增强学习中,这些例子是在整个训练过程中收集的。因此提出,会不会在黑盒攻击中,因为攻击者不知道目的网络的策略,所以无法构成攻击。
4. 提出本论文的两个contribution:
    1). 描述影响对抗样本有效性的两个因素:增强学习算法所用的策略  以及  是否攻击者知道网络(白盒还是黑盒)
    2). 探究了在同一策略下的黑盒攻击,即是攻击者只知道训练环境,但是随机初始化方法和学习算法等都不知道。
1. 机器学习的安全和私密性方面,有一系列以对抗的形式去理解模型的行为和学习算法的工作。
2. 构造对抗样本所需计算资源比较小,只需要得到模型预测的标签即可,因此可能应用到现实攻击目标中去。

Preliminaries

1. Adversarial example
    FGSM:fast gradient sign method,这是一种在计算机视觉分类领域产生有效对抗样本的方法。
    构造对抗样本的核心思想,就是要最大化由对抗样本扰动带来的对模型的干扰,同时,也要使这些扰动的规模有限,以使人类观察者不容易注意到。
2. deep reinforcement learning:DQN,TRPO,A3C

adversarial attacks

1. 用FGSM实现白箱攻击和黑箱攻击。其中,白箱攻击是在知道神经网络策略的结构和参数的情况下计算对抗攻击的扰动。
2. 介绍FGSM的原理。它需要计算损失函数关于输入x的梯度。在增强学习的背景下,假设输出y是对可能action的权重值,当用FGSM来计算对抗扰动时,假设这个action最优即是最大化输出权重y。因此,损失函数用的是交叉熵。
3. 在对数据样本扰动时,需要对改变的程度加上限制,有两种方法,一是改变输入特征的程度受限,二是只改变小规模的输入特征。

experimental evaluation

文章用的实验方法是用对抗攻击样本攻击Atari的四种游戏Chopper Command, Pong, Seaquest, and Space Invaders来评估攻击的效果。每一种游戏实验都用3种深度强化学习算法对每个游戏进行了训练:A3C、TRPO和DQN。

Conclusion

1. 不论游戏的种类是什么,训练策略是什么,训练方法是什么,对输入引入相对较小的扰动都降低训练的模型的表现。
2. 在给定条件下,受限于l1规则的对抗对神经网络的影响最大。
3. 对抗攻击确实存在,不论是黑箱攻击还是白箱攻击。因此,发展对对抗攻击的defense是必要的。在防御上,主要包括两个方面:一是将受到扰动的样本也加入到训练集中;二是在对训练好的模型进行测试时,增加对输入数据是否是对抗攻击的探测。
添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注