@rianusr
2019-08-13T02:15:19.000000Z
字数 534
阅读 5984
第六章:机器学习01:特征工程--02特征转换
06-机器学习
1 连续变量无量纲化
1.1 无量纲化的原因

1.2 常用的无量纲化的方法
1.2.1 标准化

1.2.2 区间缩放法

2 连续变量数据变换--改变元数据的分布
2.1 为什么要进行数据变换

2.2 常用的数据变换方法
2.2.1 log变换

2.2.2 box-cox变换

3 连续变量的离散化
3.1 为什么要离散化?

3.2 无监督的离散化方法

3.3 有监督的离散化方法
3.3.1 有监督的离散化:决策树

3.3.2 一种特殊的离散化方法:二值化

3.3.3 一种特殊的离散化:Rounding(取整)

4 类别型变量转换
4.1 为什么对类别变量进行转换?

4.2 常见的转换方法
4.2.1 one-hot编码(独热编码)

4.2.2 Count Encoding

4.2.3 Target encoding

5 日期型变量转换
5.1 日期型变量

5.2 日期型变量转换方法
5.2.1 提取日期/时间中的特征变量

5.2.2 相对特征的提取

6 缺失值的处理方法
6.1 为什么会产生缺失值

6.2 缺失值处理方法汇总

6.3 缺失值处理案例1:均值替换

6.4 缺失值处理案例2:NaN encoding

7 特征转换之特征组合
7.1 为什么要进行特征组合

7.2 特征组合的方法

7.2 类别型变量特征组合示例
