@Sherlockyang 2018-04-05T07:37:58.000000Z 字数 535 阅读 504

Chapter 2

强化学习

A k-Armed Bandit Problem

类似于一类问题，你现在又k个不同的操作，每一个你执行的操作，将会按照一个静态的概率分布模型返回一个奖励（reward），现在让你执行1000次操作（time steps）已到达最大的收获。

定义了一些东西
在这个问题中，每一个 $k$ 的期望reward是已知的，我们称之为value。我们定义在t time step动作选择为 $A_t$ ，其相应的reward为 $R_t$ .若采取的动作为 $a$ ,那么，这个期望的 $value$ 我们用 $q_*(a)$ 表示，

$q_*(a) = \mathbb{E}\bigg[R_t|A_t=a\bigg]$
但是，这个期望的 $q_*(a)$ 并不是总能直接获得的，但是可以通过估计得方式来逼近这个函数，我们将这个估值函数用 $Q(a)$ 来表示，并且希望这个函数 $Q(a)\approx q_*(a)$
理论
如果我们总是在 $t$ 步去获得最好的值（value）[1]，文中将其解释为exploiting，但是，这样可能不能达到全局最优。如果，我们不带任何感情色彩得（概率值为50%）的去选择动作，文中将其解释为exploration，这种选择将会产生更好的全局最优值（greater total reward in long run）

[1] 这是一种贪心策略 ↩