@gump88 2016-08-13T13:21:50.000000Z 字数 2234 阅读 2832

title: 机器学习笔记(三)过拟合与正则化

机器学习笔记(三)bias与variance以及过拟合与正则化

date: 2015-08-09 10:18:55

`MachineLearning`

1、 bias - variance

前提条件是独立同分布：
The i.i.d. assumption.png

对期望泛化误差进行分解：
这里的h是学习算法在某个训练数据集合上面得到模型，f对应真值，而E[h]含义是：当学习算法应用于不同数据集时，最后输出的均值
Bias-variance dilemma.png
可以看到期望泛化误差是方差和偏差方之和，因此这里就存在一个二者之间的trade-off问题。

bias:期望输出与真实标记的差别称为偏差(bias),偏差刻画了期望预测与真实结果的偏离程度，即刻画了学习结果本身的拟合能力；

variance：方差表达了同样大小的训练集的变动所导致的学习性能的变化，即刻画了数据扰动所造成的影响；

上面的理论看起来比较抽象，下面介绍俄勒冈州大机器学习课程上面一个具体的例子加深理解(CS534)：
1. 使用bootstrap方法构建原始集合S的B个拷贝集合 ${S_1,S_2,...,S_B}$
2. 在每个集合上面都使用学习算法，每个集合得到的算法为 $h_b$
3. 对属于 $T_b = S/S_b$ 的out of bag points ,进行相应的预测，结果为 $h_b(x)$
4. 对于每个点会得到一系列的预测值: $y_1,y_2,...,y_k$ 以及原来的真值y
5. 计算平均预测值为 $\bar h = \frac{1}{k}\sum_{i = 1}^k y_i\quad$
6. 那么这里就可以计算出 $bias = (\bar h-y)$
7. 同理可以计算出 $variance = \frac {1}{k - 1}\sum_{i = 1}^k (y_i - \bar h)^2$

Effect of Bagging on Bias and Variance

bagging采用bootstrap，相当于降低了数据集之间的不同，因此训练出来的各个模型之间的方差会降低，但是不会改变bias；

2、过拟合

2.1 经验风险最小化和结构风险最小化

给定一个训练数据集， $T = {(x_1,y_1),(x_2,y_2),...,(x_n,y_n)}$ ，模型 $f(x)$ 关于训练数据集的平均损失称为经验风险(empirical risk)或经验损失(empirical loss),记作：
$R_{emp}(f) = \frac{1}{N}\sum_{i = 1}^NL(y_i,f(x_i))\quad$

模型 $f(X)$ 关于联合分布 $P(X,Y)$ 的平均意义下的损失 $R_{exp}(f) = E_p[L(Y,f(X))]$ ，称为期望损失；

经验风险最小化就是求解使经验风险最小的模型，但是当样本容量很小时，往往容易产生过拟合问题，而结构风险最小化就是为了防止过拟合而提出来的策略，等价于正则化。结构风险在经验风险上加上表示模型复杂度的正则项或者罚项，在假设空间、损失函数以及训练数据集确定的情况下，结构风险的定义是
$R_{srm}= \frac{1}{N}\sum_{i = 1}^N L(y_i,f(x_i)) + \lambda J(f)\quad$ ，其中 $J(f)$ 表示模型的复杂度， $\lambda>=0$ 是权衡经验风险和模型复杂度的系数；

2.2 训练误差和测试误差

假设学习到的模型是 $Y=\hat f(X)$ ，训练误差是模型 $Y=\hat f(X)$ 关于训练数据集的平均损失：
$R_{emp}=\frac{1}{N}\sum_{i = 1}^NL(y_i,\hat f(x_i))$ ，其中N是训练样本容量。

测试误差是学习到的模型关于测试数据集的平均损失： $R_{test}=\frac{1}{T}\sum_{i = 1}^TL(y_i,\hat f(x_i))$ ，其中T是测试数据集的容量。

2.3 过拟合

过拟合指的是学习时选择的模型包含的参数过多，模型过于复杂，以致于出现这一模型在训练集上表现很好，对已知数据预测得很好，但对未知数据预测得很差的现象。与之对应的是模型过于简单的欠拟合，借用上课时的PPT来表示下这两种情况。

下面这幅图表示过拟合、bias-variance之间的关系
overfitting and bias-variance dilemma.png

3、正则化

为了解决过拟合问题，人们往往在经验损失函数的后面添加上一个正则化项。正则化是结构风险最小化策略的实现，正则化是在经验风险上加上表示模型复杂度的正则项或者罚项，在假设空间、损失函数以及训练数据集确定的情况下，结构风险的定义是
$R_{srm}= \frac{1}{N}\sum_{i = 1}^N L(y_i,f(x_i)) + \lambda J(f)\quad$ ，其中 $J(f)$ 表示模型的复杂度， $\lambda>=0$ 是权衡经验风险和模型复杂度的系数；

正则化项对应于模型的先验概率，一般是模型复杂度的单调递增函数；比如，正则化项可以是模型参数向量的范数。如果取L1-norm的话容易得到稀疏解，如果取L2-norm的，相当于加上一个服从高斯分布的先验知识。下面列出几种加上不同正则项后的模型：

Ridge regression： $\sum_{i = 1}^n(y_i - w^Tx_i)^2 + \lambda||w||^2$ ,线性模型，平方损失，L2正则项
Lasso ： $\sum_{i = 1}^{n}(y_i - w^Tx_i)^2 + \lambda||w||_1$ ,线性模型，平方损失，L1正则项
Logistic regression： $\sum_{i = 1}^n[y_iln(1 + e^{-w^Tx_i} + (1 - y_i)ln(1 + e^{w^Tx_i}))] + \lambda||w||^2$ ,线性模型，对数几率（logistics loss），L2正则项