[关闭]
@Emptyset 2017-06-14T10:06:00.000000Z 字数 3719 阅读 3982

一份详尽的强化学习(Reinforcement Learning)介绍

DQN RL DL 深度学习 强化学习


Sec 0 Learning Scenario 强化学习场景

Reinforcement learning is the study of planing and learning in a scenario where a learner actively interacts with the environment to achieve a certain goal.
Ch 14 Foundations of Machine Learning [1]

想象我们在玩英雄联盟,从游戏一开始,我们便不间断地对我们操控的英雄下达各种命令——或移动,或普攻,或施放各种技能,直到我们推倒敌方基地取得游戏胜利或者我们被击败为止。在整个游戏进行过程中,我们人脑无时无刻都在接收屏幕反馈来的信息,根据信息作出相应的决策,而作出这些决策的最终目的只有一个——获取游戏的胜利。
如果我们希望机器也能够学会玩这一个游戏,我们该如何建立这样一个学习过程呢?很显然,在游戏过程中任何一个时刻我们所做任何一个单一决策都无法完全决定这场游戏的胜利归属,游戏的胜利或者失败是经由一系列的决策综合效果决定的。
强化学习中具有代表性的一个里程碑自然是DeepMind建造的围棋人工智能AlphaGo,下围棋走子的决策过程很显然也是一个强化学习过程,因为单独每一个位置的走子都不足以决定一场棋局的胜负,AlphaGo需要评估并且最大化每一步会为未来带来的最大期望收益,来作为自己走子的依据。AlphaGo中用到的估值网络(Value Network, 即DQN)和策略网络(Policy Network)均是强化学习结合深度学习的成果。
目前DeepMind就在探索如何通过深度强化学习训练一个可以战胜《星际争霸2》世界冠军的人工智能。
另外,2013年的时候Google就有一篇关于用DQN玩Flappy Bird的论文[2],顺着这条主线下去,我们会看到后面还有基于DQN的多个改进版本(Double DQN[3], Dueling DQN[4]等等),使得这个算法可以应用于更多的游戏场景,并且在许多游戏中已经超过了人类玩家的水平[5]

从以上的介绍可以看出,强化学习的应用场景十分广泛,将会在不久的未来渗透到我们生活中各个领域——

下图展示了一个强化学习的过程:
学习者,即这个Agent可以观察环境(Environment),对环境作出动作(action)。对于每一次的action,学习者都会得到对应的环境信息/状态(state)以及这个动作带来的收益(reward)。
学习者的目标就是最大化这个累积的reward

actionstaterewardAgentEnvironment

在接下去的篇章中,我们首先通过介绍马尔可夫决策过程(Markov Decision Process, MDP)来引入一些基本的定义,因为强化学习任务一般都被描述为MDP。

Sec 1 Markov Decision Process model

首先我们给出“马尔可夫决策过程”的定义

Definition 1.1 MDPs
A Markov decision process (MDP) is defined by:

  • a set of states , possibly infinite
  • a start state or initial state
  • a set of actions , possibly infinite.
  • a transition probability : distribution over destination states
  • a reward probability : distribution over rewards returned

在定义中我们使用了"tick" notation,即代表的是状态在下一个时刻的状态:. 从定义中我们可以看出来,马尔可夫决策过程要求transition和reward 只依赖于 当前状态而非


Definition 1.2 Policy
A policy is a mapping .

以上是stationary policy的定义,因为在这个定义中,我们对action的选择并不依赖于时间,而只依赖与状态. 更普适地,我们可以定义non-stationary policy为:

Definition 1.3 Policy value
The value of a policy at state is defined as the expected reward returned when starting at and following policy :

  • finite horizon:
  • infinite discounted horizon:

Sec 2



[1] Foundations of Machine Learning, MIT Press, Authors: Mehryar Mohri, Afshin Rostaminzadeh, Ameet Talwalkar
[2] https://arxiv.org/pdf/1312.5602.pdf
[3] Deep Reinforcement Learning with Double Q-learning. https://arxiv.org/pdf/1509.06461.pdf
[4] Dueling network architectures for deep reinforcement learning
[5] Human level control through deep reinforcement learning
添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注