[关闭]
@Libaier 2016-07-25T07:57:24.000000Z 字数 1213 阅读 2351

朴素贝叶斯

分类


主要思想

朴素贝叶斯分类器是一系列以假设特征之间强(朴素)独立下运用贝叶斯定理为基础的简单概率分类器。

产生背景

朴素贝叶斯自20世纪50年代已广泛研究。在20世纪60年代初就以另外一个名称引入到文本信息检索界中。

应用场景

损失函数

01损失,期望风险最小??

主要推导

对于事件A,B贝叶斯公式

对于输入和输出

由于X是多维特征(M维),朴素贝叶斯假设特征间相互独立

因为在计算各个分类时相等,所以不用计算。

朴素贝叶斯最后学习到的是联合概率,所以是生成式模型。

最后朴素贝叶斯求解的问题是

求解算法

通过使用样本结合极大似然估计求解

其中先验概率的极大似然估计估计如下

设第个特征的取值集合为

使用贝叶斯估计可以处理概率为零的情况(,拉普拉斯平滑)

伪代码

  1. 输入:数据集D(N个样本)
  2. 训练过程:
  3. 通过数据集D学习求解算法中的两个参数
  4. 预测过程:
  5. 使用贝叶斯公式计算分类概率,选择有最大概率的分类
  6. 输出:分类结果

复杂度分析

训练时间复杂度:计算求解过程中的两个公式

结合第一个公式计算所有类别概率复杂度为O(NK)

结合第二个公式计算为O(KNSM) 每个特征的S不同,但这里为简单起见写为S,且使用相应算法应该可以使复杂度降低。

大数据适配

见Map-Reduce for Machine Learning on Multicore.

评价

算法改进

相关算法

参考资料

  1. wiki

  2. 机器学习常见算法个人总结

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注