[关闭]
@rianusr 2019-08-13T02:15:19.000000Z 字数 534 阅读 5637

第六章:机器学习01:特征工程--02特征转换

06-机器学习


1 连续变量无量纲化

1.1 无量纲化的原因

image_1ceqml028ae2cd8160r1iq21kl19.png-157.8kB

1.2 常用的无量纲化的方法

1.2.1 标准化

连续变量无量纲化-标准化.png-139.9kB

1.2.2 区间缩放法

连续变量无量纲化-区间缩放法.png-150kB

2 连续变量数据变换--改变元数据的分布

2.1 为什么要进行数据变换

image_1ceqmuaip5ai17e51bk21udg1o0f1e.png-225.8kB

2.2 常用的数据变换方法

2.2.1 log变换

常用数据变换方法-log变换.png-199.6kB

2.2.2 box-cox变换

常用数据变换方法-box-cox变换.png-119.6kB

3 连续变量的离散化

3.1 为什么要离散化?

连续变量离散化.png-287.7kB
image_1ceqnc9ev1vjjhfd7un12su108j42.png-94.7kB

3.2 无监督的离散化方法

非监督离散化方法.png-217.9kB

3.3 有监督的离散化方法

3.3.1 有监督的离散化:决策树

有监督的离散化.png-163.7kB

3.3.2 一种特殊的离散化方法:二值化

一种特殊的离散化:二值化.png-213.4kB

3.3.3 一种特殊的离散化:Rounding(取整)

一种特殊的离散化:Rounding(取整).png-170.9kB

4 类别型变量转换

4.1 为什么对类别变量进行转换?

image_1ceqo8vlu14qb8hn1ph71nko1eoe6u.png-110.4kB

4.2 常见的转换方法

4.2.1 one-hot编码(独热编码)

one-hot编码.png-182.4kB

4.2.2 Count Encoding

count encoding.png-140.6kB

4.2.3 Target encoding

Target encoding.png-125.3kB

5 日期型变量转换

5.1 日期型变量

image_1ceqom9921fqf300n52779esq8i.png-56.3kB

5.2 日期型变量转换方法

5.2.1 提取日期/时间中的特征变量

提取时间中的特征变量.png-127.6kB

5.2.2 相对特征的提取

image_1ceqoqr0a1b6l1mv91ago1omf111b9b.png-108.8kB

6 缺失值的处理方法

6.1 为什么会产生缺失值

image_1ceqosdn41ljho4g66u1h32ur19o.png-243.2kB

6.2 缺失值处理方法汇总

image_1ceqotqk81n6p14gc132n11fubdva5.png-267.1kB

6.3 缺失值处理案例1:均值替换

缺失值处理案例-均值替换.png-111.3kB

6.4 缺失值处理案例2:NaN encoding

缺失值处理案例-NaN encoding.png-175.2kB

7 特征转换之特征组合

7.1 为什么要进行特征组合

为什么要进行特征组合.png-232.1kB

7.2 特征组合的方法

特征组合的方法.png-177.8kB

7.2 类别型变量特征组合示例

类别型变量组合特征示例.png-120.8kB

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注