[关闭]
@Gizmosir 2016-03-15T02:53:41.000000Z 字数 4203 阅读 945

date: 2016-03-10
categories: Machine learning
tag: [Probability theory, Bayes theorem, 贝叶斯]
mathjax: true
博客

title: 从模式识别的角度看概率论(II)

前言

这是《从模式识别的角度看概率论》的第二篇,如果你没有看过第一篇,可以点击这里

连续+单变量

问题

在之前第一篇中我们通过了解了如何使用贝叶斯定理解决离散单变量的概率问题。如果箱子中的球不在是单个整数而是以下这种多个非整数呢?

再如果变量不再是个离散值而变成连续值呢?

举个飞镖比赛的例子,两个人各投十发飞镖。那么我们如果根据这十发飞镖离靶心的距离来判断胜负,那么由于距离是连续不断的值,也就是说变量的连续的。那么我们应该何如使用连续的数据来进行分类(判断胜负)呢?

正态分布(Gaussian distribution)

由于变量是连续值,所以我们需要用函数(曲线)来表示这个变量的变化。而正态分布则是一个能够很好地表征自然科学与行为科学中的定量现象的模型。各种各样的心理学测试分数和物理现象比如光子计数都被发现近似地服从正态分布[1]。其函数式:

其中,是正态分布函数的均值,是正态分布函数的方差。其图像如下所示:

我们常说的标准正态分布是的正态分布。

虽然正态分布的函数式看上去比较复杂,但是重要的值只有两个:均值和标准差

均值也称为数学期望,期望值。如果给定正态分布函数,我们可以用以下方法计算均值在连续形式与离散形式时的值:

值改变的是正态分布的位置,值变大,则正态分布函数往右边移动,如下图所示:

同样的给定正态分布函数,我们也能够计算

而标准差改变的则是正态分布曲线的“宽度”。而由于正态分布曲线积分和为1,所以越小,曲线越窄,同时也越高,如下图所示。

应用实例

那么我们应该如果使用正态分布函数来解决分类问题呢?

假设我们现在需要仅根据一个人的身高来判断TA是男生还是女生。首先我们收集大量的男女生的身高信息,而身高信息是能够很好的使用正态分布函数表征的信息。再假设我们通过计算后得到男女身高的正态分布曲线如下:

例子中的数据没有考据过,不一定就是实际情况,我们这里只是举个例子。

首先来看下能够直接从上图中得到的信息:
1. 女生身高的均值在160cm;
2. 男生身高的均值在170cm;
3. 男生身高的正态分布函数比女生的宽,也就是标准差更大;

接下来分析下图结合上述信息能够推到出的推论:
1. 由于女生的正态分布函数更窄,更集中在均值160附近,也就是说如果TA的身高在160附近,那么TA是女生的概率更大;
2. 虽然男生的正态分布函数更宽,但是其均值在170附近,也就是说如果TA的身高在170附近,那么TA是男生的概率更大;
3. 同样由于女生的正态分布函数比男生的更窄,也就是说女生的身高聚集在160附近的人数远比男生的多,所以如果TA的身高为165,那么是女生的概率仍然更大;
4. 实际上我们能够很直观地从上图中发现,当TA的身高在[135, 168]区间,也即是图中红色曲线更高的情况下,TA为女生的可能性更大;反之,在[168, 220]区间,也就是图中蓝色曲线更高的情况下,TA为男生的可能性更大。

实际上从推论中我们不难发现,这里的正态分布函数跟概率好像有某种微妙的联系。没错,再回想下正态分布函数积分之和为1这点更加确认了。实际上在我们的例子中正态分布函数就是概率密度函数(probability density function)。我们也可以用(x为身高)表示,即在给定类型的情况下数据的概率。

思考:也许你会问,难道实际应用中数据都会呈现正态分布的特性吗?如果不是,那有类似的能够表征的函数么?那如果不能用函数表征的话,我们可以如何解决这种分类问题?

离散+多变量

为了说明离散多变量的分类问题,我们改变下之前箱子和球的例子,如下:


现在球上没有印号码,取而代之的是大小与重量的不同。箱子C1中的球尺寸较大,但是重量较轻;箱子C2中的球尺寸较小,但是重量较重。

球的重量与尺寸只有几个固定的值,所以数据是离散的。

那么如果将球的尺寸和重量数据用图像来表示的话,如下:

如果我们有以下规定:
1. 用i来表示球的尺寸值(X方向);
2. 用j来表示球的重量值(Y方向);
3. 用来表示的球的个数;
4. 用来表示所有尺寸等于i的球的个数;
5. 用来表示所有重量等于j的球的个数。

也就是说我们可以将所有的球的数据用以下网格来表示。

根据定义:

N是所有箱子中所有球的总数。

那么我们可以推导出:

那么同理可得:

同理可得:

也就是说,求球落在某一列/行中的概率,等于这一列/行中所有球的个数的累加和,所以这个定理也称为累加和规则。通过网格表示和累加和规则,我们就能够只对数据较有特征的维度上进行比对。

实例

回到我们的例子中,首先我们收集箱子中的球的数据,并将其放入网格中,如下:

接着,根据累加和规则,我们可以计算,如果用图像表示,则如下图所示:

从图中的的分布情况不难发现,数据在X方向(尺寸)具有更高的识别度。

连续+多变量

要讲清楚连续多变量问题,所以我们需要把离散多变量中的累加和规则拓展一下:

由于数据从离散量变成连续量,所以累加变成积分。求数据在X/Y轴上的概率,则等于该轴上所有数据,也就是Y/X轴方向上数据的积分。

那么也就不难推导出在某个时间A的发生概率为其相对应X轴与Y轴上数据的积分。所有数据的积分为1。

二维正态分布函数

同样的我们假设数据在两个维度上各自满足正态分布,那么二维正态分布函数式如下:

式子看上去超级复杂,实际上只是一维正态分布在空间上的叠加,如下图所示。我们采用右图这种等高线示意图来更好地在二维图像中表示二维正态分布。

实际上跟一维的正态分布函数一样,重要的是均值与方差(标准差):

但是不同于一维正态分布,二维的多了,也就是两个轴之间的关系:

且有以下规定:

不同的值和值对图像的影响如下:

由上图不难推导出:

实际上上图中的圆或椭圆的位置和形状由平均值向量和协方差矩阵决定。

参考与其他

[1]: 正态分布-维基

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注