[关闭]
@Sherlockyang 2018-04-05T07:37:58.000000Z 字数 535 阅读 504

Chapter 2

强化学习


A k-Armed Bandit Problem

类似于一类问题,你现在又k个不同的操作,每一个你执行的操作,将会按照一个静态的概率分布模型返回一个奖励(reward),现在让你执行1000次操作(time steps)已到达最大的收获。


[1] 这是一种贪心策略
添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注