@haoqiang
2018-01-22T04:53:40.000000Z
字数 1117
阅读 70
机器学习
| 算法 | 支持模型 | 树结构 | 特征选择 | 连续值处理 | 缺失值处理 | 剪枝 |
|---|---|---|---|---|---|---|
| ID3 | 分类 | 多叉树 | 信息增益 | 不支持 | 不支持 | 不支持 |
| C4.5 | 分类 | 多叉树 | 信息增益比 | 支持 | 支持 | 支持 |
| CART | 分类,回归 | 二叉树 | 基尼系数,均方差 | 支持 | 支持 | 支持 |
思想
计算出每个特征的信息的信息增益,选择信息增益最大的特征来建立决策树的当前节点。
信息增益
特征
ID3算法的不足
1. 没有考虑连续特征,如长度,密度。
2. 取值比较多的特征比取值少的特征信息增益大。
思想
计算出每个特征的信息的信息增益比,选择信息增益比最大的特征来建立决策树的当前节点。
信息增益比
信息增益比是信息增益和特征熵的比值:
算法
计算所有特征的信息增益比,选择最大的作为最佳特征;若某一特征是连续的,计算每个切分点的二分类信息增益比,选择最大的作为该特征的最佳切分点。
使用基尼系数来代替信息增益比,每次仅仅对某个特征的值进行二分。
基尼系数代表了模型的不纯度,基尼系数越小,则不纯度越低,特征越好。在分类问题中,假设有
二分类问题,基尼系数的表达式为:
特别的,对于样本
计算所有特征的基尼系数,选择最小的作为最佳特征;若某一特征有多个切分点,计算每个切分点的二分类基尼系数,选择最小的作为该特征的最佳切分点。