[关闭]
@Emptyset 2016-01-08T04:41:58.000000Z 字数 2496 阅读 1258

朴素贝叶斯分类

数据挖掘


Part 0 问题描述

提供中华万年历用户访问文章/说说的记录,预测20151128-20151130这三天用户的点赞/踩记录

Part 1 数据处理

Part 2 用户和帖子的特征向量设计

Part 3 贝叶斯模型设计

定义分类(Categories):

定义特征(Features):

朴素贝叶斯模型(Naive Bayes)

模型1

目前我们要解决的问题是求,假设有d个特征

其中,即对于某用户,对待某篇post满足这些特征的情况下它属于分类的后验概率


可以发现右侧分子中,且,另外分母的是与分类无关的,在确定的情况下,不会影响,,这三者的大小。因此

分别计算,将获得最大后验概率者作为其分类

模型2

同样假设各个特征之间相互独立

Part 4 特征工程

训练集:20151101-20151124的数据
测试集:20151125-20151127三天数据

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注