@haoqiang 2018-03-07T03:14:19.000000Z 字数 2998 阅读 56

朴素贝叶斯

机器学习

1. 朴素贝叶斯模型

假如样本是：

(x (1) 1, x (1) 2, \dots, x (1) n, y 1), (x (2) 1, x (2) 2, \dots, x (2) n, y 2), \dots, (x (m) 1, x (m) 2, \dots, x (m) n, y m)

$(x_1^{(1)}, x_2^{(1)}, \cdots ,x_n^{(1)}, y_1), (x_1^{(2)}, x_2^{(2)}, \cdots ,x_n^{(2)},y_2), \cdots , (x_1^{(m)}, x_2^{(m)}, \cdots ,x_n^{(m)}, y_m)$

即：有 $m$ 个样本，每个样本有 $n$ 个特征，特征输出有 $K$ 个类别，定义为 ${C_1,C_2,\cdots,C_K}$ 。

从样本可以学习得到朴素贝叶斯的先验分布 $P(Y=C_k)(k=1,2,...K)$ ，接着学习到条件概率分布 $P(X=x|Y=C_k) = P(X_1=x_1, X_2=x_2,...X_n=x_n|Y=C_k)$ ，然后可以用贝叶斯公式得到 $X$ 和 $Y$ 的联合分布 $P(X,Y)$ 。联合分布 $P(X,Y)$ 定义为：

P (X, Y = C k) = P (Y = C k) P (X = x | Y = C k) = P (Y = C k) P (X 1 = x 1, X 2 = x 2, . . . X n = x n | Y = C k)

$\begin{aligned} P(X,Y=C_k) &= P(Y=C_k)P(X=x|Y=C_k) \\ &= P(Y=C_k)P(X_1=x_1, X_2=x_2,...X_n=x_n|Y=C_k) \end{aligned}$

$P(Y=C_k)$ 就是类别 $C_k$ 在训练集里面出现的频数。但是 $P(X_1=x_1, X_2=x_2,...X_n=x_n|Y=C_k)$ 很难求出，朴素贝叶斯模型做了一个大胆的假设，即 $X$ 的 $n$ 个维度之间相互独立，这样就可以得出:

= P (X 1 = x 1, X 2 = x 2, \dots, X n = x n | Y = C k) P (X 1 = x 1 | Y = C k) P (X 2 = x 2 | Y = C k) \dots P (X n = x n | Y = C k)

$\begin{aligned} &P(X_1=x_1, X_2=x_2,\cdots,X_n=x_n|Y=C_k)\\ =&P(X_1=x_1|Y=C_k)P(X_2=x_2|Y=C_k)\cdots P(X_n=x_n|Y=C_k) \end{aligned}$

如果特征真的非常不独立，那就尽量不要使用朴素贝叶斯模型。但是一般情况下，样本的特征之间独立这个条件的确是弱成立的，尤其是数据量非常大的时候。虽然牺牲了准确性，但模型的条件分布的计算大大简化了，这就是贝叶斯模型的选择。

是给定测试集的一个新样本特征， $(x_1^{(test)}, x_2^{(test)}, \cdots,x_n^{(test)})$ ，如何判断它属于哪个类型？贝叶斯模型通过后验概率最大化来分类。计算所有 $K$ 个条件概率 $P(Y=C_k|X=X^{(test)})$ ，然后找出最大的条件概率对应的类别。

预测的类别 $C_{result}$ 是使 $P(Y=C_k|X=X^{(test)})$ 最大化的类别，数学表达式为：

C r e s u l t = arg max C k P (Y = C k | X = X (t e s t)) = arg max C k P (X = X (t e s t) | Y = C k) P (Y = C k) / P (X = X (t e s t))

$\begin{aligned} C_{result} & = \arg\max_{C_k} P(Y=C_k|X=X^{(test)}) \\ & = \arg\max_{C_k}P(X=X^{(test)}|Y=C_k)P(Y=C_k)/P(X=X^{(test)}) \end{aligned}$

对于所有的类别计算 $P(Y=C_k|X=X^{(test)})$ 时，分母是一样的，都是 $P(X=X^{(test)}）)$ ，这是一个归一化系数。因此，预测公式可以简化为：

C r e s u l t = arg max C k P (X = X (t e s t) | Y = C k) P (Y = C k) = arg max C k P (Y = C k) \prod j = 1 n P (X j = X (t e s t) j | Y = C k)

$\begin{aligned} C_{result} & = \arg\max_{C_k}P(X=X^{(test)}|Y=C_k)P(Y=C_k)\\ & = \arg\max_{C_k}P(Y=C_k)\prod_{j=1}^{n}P(X_j=X_j^{(test)}|Y=C_k) \end{aligned}$

2. 参数估计

只要求出 $P(Y=C_k)$ 和 $P(X_j=X_j^{(test)}|Y=C_k)(j=1,2,...n)$ ，就可以通过比较得到朴素贝叶斯的推断结果。

$P(Y=C_k)$ 为样本类别 $C_k$ 出现的频率，即样本类别 $C_k$ 出现的次数 $m_k$ 除以样本总数 $m$ 。

$P(X_j=X_j^{(test)}|Y=C_k)(j=1,2,...n)$ ，取决于我们的先验条件：

1.如果 $X_j$ 是离散值，可以假设 $X_j$ 符合多项式分布，这样得到 $P(X_j=X_j^{(test)}|Y=C_k)$ 是在样本类别 $C_k$ 中， $X_j^{(test)}$ 出现的频率。即：

P (X j = X (t e s t) j | Y = C k) = m k j t e s t m k

$P(X_j=X_j^{(test)}|Y=C_k) = \frac{m_{kj^{test}}}{m_k}$

其中 $m_k$ 为样本类别 $C_k$ 出现的次数，而 $m_{kj}^{test}$ 为类别为 $C_k$ 的样本中，第 $j$ 维特征 $X_j^{(test)}$ 出现的次数。

某些时候，可能某些类别在样本中没有出现，这样可能导致 $P(X_j=X_j^{(test)}|Y=C_k)=0$ ，这样会影响后验的估计，为了解决这种情况，我们引入了拉普拉斯平滑，即此时有：

P (X j = X (t e s t) j | Y = C k) = m k j t e s t + λ m k + O j λ

$P(X_j=X_j^{(test)}|Y=C_k) = \frac{m_{kj^{test}} + \lambda}{m_k + O_j\lambda}$

其中 $\lambda$ 为一个大于0的常数，常取为1。 $O_j$ 为第 $j$ 个特征的取值个数。

2.如果 $X_j$ 是连续值，我们通常取 $X_j$ 的先验概率为正态分布，即在样本类别 $C_k$ 中， $X_j$ 的值符合正态分布。

P (X j = X (t e s t) j | Y = C k) = 1 2 π σ 2 k - - - - \sqrt exp ⎛ ⎝ - ( X ( t e s t ) j - μ k ) 2 2 σ 2 k ⎞ ⎠

$P(X_j=X_j^{(test)}|Y=C_k) = \frac{1}{\sqrt{2\pi\sigma_k^2}}\exp\left(-\frac{(X_j^{(test)} - \mu_k)^2}{2\sigma_k^2}\right)$

朴素贝叶斯

1. 朴素贝叶斯模型

2. 参数估计

内容目录

选择主题