@lancelot-vim 2016-05-24T08:04:20.000000Z 字数 1200 阅读 1501

非参数估计

模式分类

@author lancelot-vim

概率密度的估计

估计未知概率密度的一个基本事实是：一个向量 $\vec{x}$ 落在区域R中的概率为: $P = \int_R p(x')dx'$ ，因此P是概率密度 $p(x)$ 取了平滑的版本，所以，我们可以根据概率P来估计密度函数p.

假设n个样本 $x_1, x_2,\ ... \ ,x_n$ 都是根据概率密度函数 $p(x)$ 独立同分布抽样得到的，显然，其中k个样本落在区域R中的概率服从二项分布: $P_k = \left ( \begin{array} nn \\ k \end{array} \right ) P^k(1-P)^{n-k}$
那么k的期望为: $E(k) = nP$ ，而且k的二项式形式的分布在均值附近有非常显著的波峰。我们可以想象到比值k/n就是概率P的一个很好的估计，这个估计当样本个数n非常大时将非常准确。如果我们假设p(x)是连续的，并且区域R足够小，以至于在这个区间中p几乎没有变化，那么 $\int \limits_Rp(x')dx' \approx p(x)V$
其中x为其中一个点，V则时区域R所包含的体积，那么我们可以得到 $p(x)$ 的估计为 $p(x) = \frac{k/n}{V}$ ,如下图：

如果我们固定体积V，并且能够获得越来越多的样本，那么比值k/n将能如我们所希望那样收敛，但实际上获得的 $p(x)$ 其实是平滑版本： $\frac{P}{V} = \frac{\int\limits_Rp(x')dx'}{\int \limits_Rdx'}$

Parzen窗方法

我们暂且假设 $R_n$ 是一个d维的超立方体，如果 $h_n$ 表示超立方体一条边的长度，那么体积就是 $V_n=h^d_n$

通过窗函数，我们解析地定义落在窗口的样本个数 $k_n$ 的表达式： $\varphi(u) = \left \{ \begin{array} 01 & |u_j| \leq \frac{1}{2} \\ 0 & 其他 \end{array} \right.$
这样 $\varphi$ 就表达一个中心在原点的单位超立方体。如果 $x_i$ 落在超立方体 $V_n$ 中，那么 $\varphi(\frac{x-x_i}{h_n}) = 1$ ,否则便为0，因此，超立方体中样本的个数就是

$k_n = \sum \limits_{i = 1}^n\frac{1}{V_n}\varphi(\frac{x-x_i}{h_n})$

由此，我们可以得到比较一般的概率密度估计函数:

$p_n = \frac{1}{n}\sum\limits_{i = 1}^n\frac{1}{V_n}\varphi(\frac{x - x_i}{h_n})$

实际上，我们可以选取更好的函数 $\varphi$ ，使其光滑性更好，例如高斯窗函数 $\varphi(u) = \frac{1}{\sqrt{2\pi}}\exp(-\frac{u^2}{2})$ ，然后认为 $h_n = \frac{h_1}{\sqrt{n}}$ ，那么 $p_n(x)$ 最后就可以写成正态概率密度的叠加，对于大多数例子来说，是一个很好的估计

非参数估计

概率密度的估计

Parzen窗方法

内容目录

选择主题