@lancelot-vim 2016-05-30T08:10:09.000000Z 字数 4624 阅读 2100

概述，贝叶斯策略，最大似然估计

模式分类

@author lancelot-vim

绪论

宽度和数量直方图：

宽度与数量直方图.png-138.7kB

光泽度和数量直方图：

光泽度与数量直方图.png-137.3kB

宽度-光泽度联合分类图：

宽度-光泽度联合分类.png-176.6kB

简单归纳：

从单一特征得到的分类一般不强
将单一特征组合起来成多特征分类能得到更强的分类器
分类器模型简单（如图中红色线条）会比较弱，分类器太强（如图中蓝色线条）可能会过分类
以上问题，可能会存在如果鲈鱼分错，可能不会有太大的问题，但反之可能造成很大的影响

问题:

如何选择特征
如何选择分类器
分类之后如何采取行动

处理方案流程图：

贝叶斯决策论

引言

条件概率密度与贝叶斯公式

条件概率密度与贝叶斯公式.png-90.5kB

$P(w_1) = \frac{2}{3}$ , $P(w_2) = \frac{1}{3}$ 时的后验概率：

后验概率图.png-84kB

误差定义：

$p(error)=\left\{ \begin{aligned} p(w_{1}|x) & & x \in w_{2} \\ p(w_{2}|x) & & x \notin w_{2} \\ \end{aligned} \right.$

总误差为： $P(error) = \int_{-\infty}^{\infty} p(error,x)dx = \int_{-\infty}^{\infty} p(error|x)p(x)dx$

对 $\forall x$ , 若 $p(error|x)$ 尽量小，那么 $P(error)$ 就尽量小，所以令 $p(error|x) = min[p(w_{1}|x), p(w_{2}|x)]$

连续特征的贝叶斯决策论

允许使用多于一个的特征
允许使用两种类别以上的情形
允许有其他行为而不仅仅只是判定类别
通过引入一个更一般的损失函数来代替误差概率

以下4个约定：
1. $\{w_1, w_2, w_3,... w_c\}$ 表示c个类别(class)
2. $\{\alpha_1, \alpha_2, \alpha_3.... \alpha_a \}$ 表示a中行动(action)
3. $\lambda(\alpha_i|w_j)$ 表示类别为 $w_j$ ，采取行为 $\alpha_i$ 的损失
4. $\vec{x}$ 表示d维的特征

根据贝叶斯公式： $p(w_j|\vec{x}) = \frac{p(\vec{x} | w_j)p(w_j)}{p(\vec{x})}$

若观测到 $\vec{x}_0$ ,采取行为 $\alpha_i$ ，则损失为： $R(\alpha_i | \vec{x}_0) = \sum_{j=1}^{c}\lambda(\alpha_i | w_j)p(w_j|\vec{x}_0)$

总损失为: $R = \int R(\alpha(\vec{x}) | \vec{x})P(\vec{x})d\vec{x}$
若选择 $\alpha(\vec{x}）$ 使得： $R(\alpha_i | \vec{x})$ 对每个 $\vec{x}$ 尽可能小，则风险函数最小化

对于二分类问题

约定：
1. $\alpha_1$ 对应于 $w_1$
2. $\alpha_2$ 对应于 $w_2$
3. $\lambda_{ij} = \lambda(\alpha_i | w_j)$ 表示损失

则损失函数方程为：

$\left\{ \begin{aligned} R(\alpha_1 | \vec{x}) = \lambda_{11}p(w_1|\vec{x}) + \lambda_{12}p(w_2|\vec{x})\\ R(\alpha_2 | \vec{x}) = \lambda_{21}p(w_1|\vec{x}) + \lambda_{22}p(w_2|\vec{x}) \end{aligned} \right.$

若 $R(\alpha_1 | \vec{x}) < R(\alpha_2|\vec{x})$ ，即 $(\lambda_{21} - \lambda_{11})p(w_1|\vec{x}) > (\lambda_{12} - \lambda_{22})p(w_2|\vec{x})$ ，将该类别判为 $w_1$

若 $\lambda_{21} > \lambda_{11}$ 且 $\frac{p(\vec{x} | w_1)}{p(\vec{x} | w_2)} > \frac{\lambda_{12} - \lambda{22}}{\lambda_{21} - \lambda{11}}\frac{P(w_2)}{P(w_1)} = \theta$ ，将该类别判为 $w_1$ , 如下图
似然比图.png-75.2kB

极小化极大原则

总损失：

$R = \int_{R1}[\lambda_{11}p(\vec{x}|w_1)P(w_1) + \lambda_{12}p(\vec{x}|w_2)P(w_2)]d\vec{x} \\ \qquad + \int_{R_2}[\lambda_{21}p(\vec{x}|w_1)P(w_1) + \lambda_{22}p(\vec{x}|w_2)P(w_2)]d\vec{x}$

由于 $P(w_2) = 1 - P(w_1)$ , $\int_{R_1} = 1 - \int_{R_2}$ 得：

$R[P(w_1)] = \lambda_{22} + (\lambda_{12} - \lambda_{22})\int_{R1}p(\vec{x}|w_2)d\vec{x} + \\ \qquad \qquad \quad P(w_1)[(\lambda_{11} - \lambda_{22}) + (\lambda_{21} - \lambda{11})\int_{R2}p(\vec{x}|w_1)d\vec{x} - (\lambda_{12} - \lambda_{22})\int_{R1}p(\vec{x}|w_2)d\vec{x}]$

令 $(\lambda_{11} - \lambda_{22}) + (\lambda_{21} - \lambda{11})\int_{R2}p(\vec{x}|w_1)d\vec{x} - (\lambda_{12} - \lambda_{22})\int_{R1}p(\vec{x}|w_2)d\vec{x} = 0$

可得 $R_1$ , $R_2$ ，以及极小化极大误差： $R_{mm} = \lambda_{22} + (\lambda_{12} - \lambda_{22})\int_{R1}p(\vec{x}|w_2)d\vec{x} = \lambda_{11} + (\lambda_{21} - \lambda_{11})\int_{R2}p(\vec{x}|w_1)d\vec{x}$

极小化极大描述图：

分类器、判别函数和判定面

定义：

一般我们认为对于所有的 $j \neq i$ ,有 $g_i(\vec{x}) > g_j(\vec{x})$ ，则认为该特征向量 $\vec{x}$ 的类型为 $w_i$

一般流程如下图：

分类决策流程图.png-79.3kB

一般判决函数选择：

$g_i(\vec{x}) = P(w_i|\vec{x})=\frac{p(\vec{x}|w_i)P(w_i)}{\sum_{j=1}^cp(\vec{x}|w_j)P(w_j)}$
$g_i(\vec{x}) = p(\vec{x}|w_i)P(w_i)$
$g_i(\vec{x}) = \ln p(\vec{x}|w_i) + \ln P(w_i)$

正态判别函数

对于正态分布，通常我们取判别函数为 $g_i(\vec{x}) = \ln p(\vec{x}|w_i) + \ln P(w_i)$ ，根据正态分布密度函数可得：
$g_i(\vec{x})=-\frac{1}{2}(\vec{x}-\vec{u}_i)^T\Sigma^{-1}_{i} (\vec{x}-\vec{u}_i) - \frac{d}{2}\ln 2\pi - \frac{1}{2}\ln |\Sigma_i| + \ln P(w_i)$

情况1 ： $\Sigma_i = \sigma^2I$

对此情况， $|\Sigma_i| = \sigma^{2d}$ , $\Sigma_i^{-1}=\frac{I}{\sigma^2}$ ,由此简化判别函数为：

$g_i(\vec{x})=-\frac{||\vec{x}-\vec{u}_i||}{2\sigma^2} + \ln P(w_i) = -\frac{1}{2\sigma^2}[\vec{x}^T\vec{x} - 2\vec{u_i}^T\vec{x} + \vec{u_i}^T\vec{u_i}] + \ln P(w_i)$
显然 $\vec{x}^T\vec{x}$ 对所有的i是相等的，所以可以简化 $g_i$ 为线性判别函数: $g_i(\vec{x}) = \vec{w_i}^T\vec{x} + w_{i0}$

其中 $\vec{w_i} = \frac{1}{\sigma^2}\vec{u_i}$ , $w_{i0} = \frac{-1}{2\sigma^2}\vec{u}_i^T\vec{u}_i + \ln P(w_i)$

对于 $i \neq j$ ,令 $g_i = g_j$ ,得： $\vec{w}^T(\vec{x} - \vec{x}_0 ) = 0$ ,其中 $\vec{w} = \vec{u}_i- \vec{u}_j ,\vec{x}_0 = \frac{1}{2}(\vec{u}_i + \vec{u}_j) - \frac{\sigma^2}{||\vec{u}_i - \vec{u}_j||}\ln \frac{P(w_i)}{P(w_j)}(\vec{u}_i - \vec{u}_j)$

由 $\vec{w}$ 可见，判别面为数据的法平面，当 $P(w_i) = P(w_j)$ 时，正好是中垂面

情形一示意图.png-50.6kB

情况2 ： $\Sigma_i = \Sigma$

判别函数可重写为： $g_i(\vec{x}) = -\frac{1}{2}(\vec{x}-\vec{u}_i)^T\Sigma^{-1}_i(\vec{x}- \vec{u}_i) + \ln P(w_i)$

由同样的方法可得：
$\vec{w} = \Sigma^{-1}(\vec{u}_i - \vec{u}_i), x_0 = \frac{1}{2}(\vec{u}_i + \vec{u}_j)-\frac{\ln [P(w_i)]/P(w_j)]}{(\vec{u}_i - \vec{u}_j)^T\Sigma^{-1}(\vec{u}_i - \vec{u}_j)}(\vec{u}_i-\vec{u}_j)$

由 $\vec{w}$ 可见，判别面为数据马氏距离的法平面，当 $P(w_i) = P(w_j)$ 时，正好是马氏距离中垂面

最大似然估计

假设每个分类有数据集 $D_1, D_2 ... D_c$ 的样本分别都是根据独立同分布的 $p(\vec{x}|w_j)$ 抽取的，概率分布形式已知，但参数未定，约定未知参数符号为 $\vec{\theta}_j$ ,那么可以写出最大似然函数： $L(D_j|\vec{\theta}_j) = \Pi_{k=1}^np(\vec{x}_k | \vec{\theta}_j)$

我们认为发生的事情为是概率最大的事，所以目标为求得使得 $L(D_j|\vec{\theta}_j))$ 最大的 $\vec{\theta}_j$ , 一般情况，为了计算方便，我们使用似然函数的对数函数即 $l(\vec{\theta}_j) = \ln L$

最大似然估计示意图.png-96.2kB

高斯解

$u$ 未知： $\hat{u} = \frac{1}{n}\sum_{k = 1} ^n\vec{x}_k$
$u,\Sigma$ 未知： $\hat{u} = \frac{1}{n}\sum_{k = 1} ^n\vec{x}_k , \hat{\Sigma} = \frac{1}{n}\sum_{k = 1}^n(\vec{x}_k-\hat{u})(\vec{x}_k-\hat{u})^T$