@wuxin1994 2017-12-16T15:58:56.000000Z 字数 820 阅读 1433

吴帆1216

学习笔记17

简单看了一篇针对深度增强学习模型对抗攻击的论文《Robust Deep Reinforcement Learning with Adversarial Attacks》，按照综述总结的方式记录如下:
文章目的：将对抗攻击应用在深度增强学习模型中，同时，利用对抗攻击算法构建的对抗样本提升模型的鲁棒性。
目标模型：深度增强学习模型
算法思想：在本质上类似于FGSM的思想。FGSM中是通过梯度信息计算出一个perturbation值，直接混合到输入数据中，降低目标模型的分类准确率。这篇文章的思路则是通过梯度信息计算出让目标模型误差最大（最小化输出分类概率值）的反馈值，作为增强学习中目标模型选取action的agent值，让模型的误差最大化。而通过构造的对抗样本增加模型鲁棒性的思想就是利用的对抗学习方法，得到更加稳定的模型。
实验数据：图片和atari游戏
future direction:找出不同对抗攻击算法的理论联系，以及研究算法本身的稳定性

这篇文章类似于《Adversarial Attacks on Neural Network Policies》，他们有类似的目标模型和算法思想。不同之处在于，这篇文章的对抗样本构建算法保证了每一步对抗样本让模型执行的action都是效果最差的action，因此对比之下算法的效率更高。而两篇文章的实验结果也证明了这篇文章提出的算法具有更强的对抗性。并且，这篇文章还将模型应用在了除了高维图片之外的数据集中——atari游戏策略。
后面再详细对比算法实现部分的区别
2. 运行《DeepFool: a simple and accurate method to fool deep neural networks》这个论文的代码，在实验室的虚拟机上运行了代码，可以直接运行，max_iter先设置为10，用test_im1作为输入分类概率降低了12，接下来更改迭代数再训练。
3. 周六下午有六级考试，花了点时间准备了writing

吴帆1216

内容目录