@Libaier
2016-07-25T07:57:24.000000Z
字数 1213
阅读 2351
分类
朴素贝叶斯分类器是一系列以假设特征之间强(朴素)独立下运用贝叶斯定理为基础的简单概率分类器。
朴素贝叶斯自20世纪50年代已广泛研究。在20世纪60年代初就以另外一个名称引入到文本信息检索界中。
01损失,期望风险最小??
对于事件A,B贝叶斯公式
对于输入和输出
由于X是多维特征(M维),朴素贝叶斯假设特征间相互独立
因为在计算各个分类时相等,所以不用计算。
朴素贝叶斯最后学习到的是联合概率,所以是生成式模型。
最后朴素贝叶斯求解的问题是
通过使用样本结合极大似然估计求解
其中先验概率的极大似然估计估计如下
设第个特征的取值集合为。
使用贝叶斯估计可以处理概率为零的情况(,拉普拉斯平滑)
输入:数据集D(N个样本)
训练过程:
通过数据集D学习求解算法中的两个参数
预测过程:
使用贝叶斯公式计算分类概率,选择有最大概率的分类
输出:分类结果
训练时间复杂度:计算求解过程中的两个公式
结合第一个公式计算所有类别概率复杂度为O(NK)
结合第二个公式计算为O(KNSM) 每个特征的S不同,但这里为简单起见写为S,且使用相应算法应该可以使复杂度降低。
见Map-Reduce for Machine Learning on Multicore.
优点