[关闭]
@gump88 2016-08-13T12:49:00.000000Z 字数 1092 阅读 1785

机器学习笔记(十二)特征工程

MachineLearning


发现知乎上有个回答,链接:特征工程到底是什么? - 城东的回答
另外还参考了火光摇曳博客中的特征特征选择一篇博文。一并感谢~

1. Filter方法

Filter通过选定一个指标来衡量某个特征和目标Y之间的关联,然后根据关联性进行排序,筛选出符合要求的特征。这种方法计算开销小,但是需要根据情况选择出合适的衡量指标。

1.1 统计的视角
1.2 信息论的视角

2. Wrapper

Wrapper方法和Filter方法不同,Wrapper考虑加入某个特征后,算法的的表现来衡量特征的好坏,这种方法同样需要选定一种评价指标,可以选择:AUC,MSE,MAE等等。但是一个有N个特征的特征集合有个子集,如果进行暴力枚举时间上的开销将是巨大的,一般采用贪心策略,具体算法有前向搜索和后向搜索两种。
- 前向搜索:给定特征集合,可以将每个特征单独看成一个候选子集,从中选出最优子集,并将从候选集中排除;然后开始下一轮,从候选子集中选出一个最优特征加入最优子集,如果此轮的最优子集优于上一轮,那么继续进行,否则终止特征选择,输出最优特征子集;
- 后向搜索:后向搜索的和前向搜索类似,后向搜索是从完整的集合开始,每次尝试删去一个特征,如果删去后的特征集合优于当前集合,继续下一轮,否则停止删除,输出最优特征子集。
- 子集评价标准:AUC,MSE,MAE

3. Embedded

嵌入式特征选择过程将特征选择过程与学习器学习过程融合为一体,两者在同一个优化过程中完成,即学习器训练过程中自动地进行了特征选择。

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注