[关闭]
@lancelot-vim 2016-05-24T08:04:20.000000Z 字数 1200 阅读 1122

非参数估计

模式分类

@author lancelot-vim


概率密度的估计

估计未知概率密度的一个基本事实是:一个向量落在区域R中的概率为:,因此P是概率密度取了平滑的版本,所以,我们可以根据概率P来估计密度函数p.

假设n个样本都是根据概率密度函数独立同分布抽样得到的,显然,其中k个样本落在区域R中的概率服从二项分布:
那么k的期望为:,而且k的二项式形式的分布在均值附近有非常显著的波峰。我们可以想象到比值k/n就是概率P的一个很好的估计,这个估计当样本个数n非常大时将非常准确。如果我们假设p(x)是连续的,并且区域R足够小,以至于在这个区间中p几乎没有变化,那么
其中x为其中一个点,V则时区域R所包含的体积,那么我们可以得到的估计为,如下图:

如果我们固定体积V,并且能够获得越来越多的样本,那么比值k/n将能如我们所希望那样收敛,但实际上获得的其实是平滑版本:


Parzen窗方法

我们暂且假设是一个d维的超立方体,如果表示超立方体一条边的长度,那么体积就是

通过窗函数,我们解析地定义落在窗口的样本个数的表达式:
这样就表达一个中心在原点的单位超立方体。如果落在超立方体中,那么,否则便为0,因此,超立方体中样本的个数就是

由此,我们可以得到比较一般的概率密度估计函数:

实际上,我们可以选取更好的函数,使其光滑性更好,例如高斯窗函数,然后认为,那么最后就可以写成正态概率密度的叠加,对于大多数例子来说,是一个很好的估计

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注