@Sherlockyang
2018-04-05T07:37:58.000000Z
字数 535
阅读 504
强化学习
类似于一类问题,你现在又k个不同的操作,每一个你执行的操作,将会按照一个静态的概率分布模型返回一个奖励(reward),现在让你执行1000次操作(time steps)已到达最大的收获。
定义了一些东西
在这个问题中,每一个的期望reward是已知的,我们称之为value。我们定义在t time step动作选择为,其相应的reward为.若采取的动作为,那么,这个期望的 我们用表示,
理论
如果我们总是在步去获得最好的值(value)[1],文中将其解释为exploiting,但是,这样可能不能达到全局最优。如果,我们不带任何感情色彩得(概率值为50%)的去选择动作,文中将其解释为exploration,这种选择将会产生更好的全局最优值(greater total reward in long run)