[关闭]
@Gizmosir 2016-03-15T02:50:32.000000Z 字数 3041 阅读 811

date: 2016-03-02
categories: Machine learning
tag: [Probability theory, Bayes theorem, 贝叶斯]
mathjax: true
博客

title: 从模式识别的角度看概率论

前言

也许很多人讲到概率论,特别是“贝叶斯”时就面露难色,那么今天就从模式识别的角度来看看概率论,看看“贝叶斯”是什么。

离散+单变量

首先从最简单的离散单变量开始。首先假设有两个箱子,里面装好大小形状完全一致的小球,球上印着不同的数字,如下图所示:

我们能且仅能通过从箱子中抽取球并观察其号码的方式来判断这个箱子到底是C1箱子还是C2箱子。要判断上图中是哪个箱子很简单,仅需看抽出的号码是几。如果是1则是C1箱;如果是2则为C2箱。

那如果把箱子中的球换成以上这种情况呢?是不是就变得稍微复杂点?

概率论简单回顾

在解释应该如何通过号码球来判断哪个箱子之前,先来回顾一下简单的概率论知识:

贝叶斯定理

由上一小结最后三条公式:

不难推出:

而这就是贝叶斯定理。
其中称为先验概率(prior probability)
称为后验概率(posterior probability)

例子


回到上述的例子中,我们假设C1C2出现的概率均为,从图中不难看出:


可以计算得:


可以计算得:

最后,根据贝叶斯定理:

可以得到:

在这里我们将整个计算过程分为三步:
1. 计算条件概率
2. 计算全概率
3. 计算后验概率

之所以这么做的原因是将难以计算的量转换成容易计算或者能够直观获得的量。在我们的例子中,球在每个箱子中出现的概率()是直观获得的,球总共出现的概率是容易计算的(),而箱子在抽取球后的概率()是相对没有那么容易计算的。

当然我们可以使用以下贝叶斯定理一步到位:

之所以将称作为后验概率的原因是,当事件AB不是独立事件时,B事件的出现会影响A事件发生的概率。在我们的例子中,C1C2的先验概率均为,当抽到的球为时,由于其在不同箱子中的个数是不同的,所以C1C2的概率发生了变换,变成。也就是说,因为抽到的是1号,而又因为其在C1箱中更多,所以我们更加确定地判断箱子为C1

再举个例子,相同的箱子以及球的个数,但是箱子出现的概率分别为:


那么:

即在抽到2号球的情况下,判断为C2箱子的概率为,也就是说,无论抽到的是几号球,都应该直接判断为C1箱子,原因是因为C1箱子出现的概率大大超过C2箱子。然而,2号球的出现还是稍微提高了判断为C2箱子的可能性,从提高到了

而这就是贝叶斯定理的关键是先验概率与后验概率的比较,也就是一个事情的发生概率受另外事件概率的影响多少。

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注