@Sherlockyang
2018-04-05T03:33:39.000000Z
字数 436
阅读 635
强化学习
蒙特卡洛是一个赌城的名字。冯·诺依曼给这方法起了这个名字,增加其神秘性。
蒙特卡洛方法是一个计算方法,被广泛的用于许多领域,用于求值。
相对于确定性的算法,蒙特卡洛方法是基于抽样数据来计算结果。
蒙特卡洛方法的整体思路是:模拟 -> 抽样 -> 估值。
示例:
比如:如何求的值。一个使用蒙特卡洛方法的经典例子如下:
我们知道一个直径为1的圆的面积为。
把这个圆放到一个边长为2的正方形(面积为4)中,圆的面积和正方形的面积比是:。
假设我不通过计算的方式,而是通过测量的方式,来得到这个比值
如何测量比值呢?用飞镖去扎这个正方形。扎了许多次后,用圆内含的小孔数除以正方形含的小孔数可以近似的计算比值。
(上述方法感性得理解可以是:一个非常小的一个概率试验。)
说明:
模拟 - 用飞镖去扎这个正方形为一次模拟。
抽样 - 数圆内含的小孔数和正方形含的小孔数。