@Libaier
2016-08-03T04:17:12.000000Z
字数 1528
阅读 1445
分类
回归
有监督学习
决策树(Decision tree)由一个决策图和可能的结果(包括资源成本和风险)组成, 用来创建到达目标的规划。决策树建立并用来辅助决策,是一种特殊的树结构。决策树是一个利用像树一样的图形或决策模型的决策支持工具,包括随机事件结果,资源代价和实用性
ID3 1986年提出
C4.5 1993年提出
CART 1984年提出
决策树表示给定特征条件下类的条件概率分布。
ID3
信息熵
条件熵
使用特征对数据集进行分类,假定特征有维
信息增益
C4.5
信息增益会偏袒取值较多的特征
可以使用增益率解决这一问题
CART
CART可以用来分类,也可以用来做回归。
此种决策树每次都进行二分。
1. 回归
最小化平方误差。
选择第j个变量和他的取值s作为划分,c代表类中实例输出结果均值。
2. 分类
基尼指数定义:
通过判断特征是否取某一特定值把数据集分为两类和:
在所有可能的特征和划分中选择基尼指数最小的做划分。
与推导过程类似,使用贪心的策略迭代求解。
输入:数据集D(N个样本),特征集合X
过程:
genarateTree(D,Xi)
生成节点node
if D中所有样本属于同一类别
将node标记为此类别/回归为均值 return
end if
if X为空集或者D中样本在X上取值相同
将node标记为D中较多的样本的类/回归为均值 return
end if
选择最优划分Xi
for Xi = 所有的可能取值
在X中去掉Xi这一维,命名为X’
D’为Xi取当前值的样本子集
genarateTree(D’,X’)
end for
输出:完整的决策树
to be done
优点
缺点