[关闭]
@gump88 2016-08-13T13:21:50.000000Z 字数 2234 阅读 2524

title: 机器学习笔记(三)过拟合与正则化

机器学习笔记(三)bias与variance以及过拟合与正则化

date: 2015-08-09 10:18:55

MachineLearning

1、 bias - variance

前提条件是独立同分布:
The i.i.d. assumption.png

对期望泛化误差进行分解:
这里的h是学习算法在某个训练数据集合上面得到模型,f对应真值,而E[h]含义是:当学习算法应用于不同数据集时,最后输出的均值
Bias-variance dilemma.png
可以看到期望泛化误差是方差和偏差方之和,因此这里就存在一个二者之间的trade-off问题。

bias:期望输出与真实标记的差别称为偏差(bias),偏差刻画了期望预测与真实结果的偏离程度,即刻画了学习结果本身的拟合能力;

variance:方差表达了同样大小的训练集的变动所导致的学习性能的变化,即刻画了数据扰动所造成的影响;

上面的理论看起来比较抽象,下面介绍俄勒冈州大机器学习课程上面一个具体的例子加深理解(CS534):
1. 使用bootstrap方法构建原始集合S的B个拷贝集合
2. 在每个集合上面都使用学习算法,每个集合得到的算法为
3. 对属于的out of bag points ,进行相应的预测,结果为
4. 对于每个点会得到一系列的预测值:以及原来的真值y
5. 计算平均预测值为
6. 那么这里就可以计算出
7. 同理可以计算出

Effect of Bagging on Bias and Variance

bagging采用bootstrap,相当于降低了数据集之间的不同,因此训练出来的各个模型之间的方差会降低,但是不会改变bias;

2、 过拟合

2.1 经验风险最小化和结构风险最小化

给定一个训练数据集,,模型关于训练数据集的平均损失称为经验风险(empirical risk)或经验损失(empirical loss),记作:

模型关于联合分布的平均意义下的损失,称为期望损失

经验风险最小化就是求解使经验风险最小的模型,但是当样本容量很小时,往往容易产生过拟合问题,而结构风险最小化就是为了防止过拟合而提出来的策略,等价于正则化。结构风险在经验风险上加上表示模型复杂度的正则项或者罚项,在假设空间、损失函数以及训练数据集确定的情况下,结构风险的定义是
,其中表示模型的复杂度,是权衡经验风险和模型复杂度的系数;

2.2 训练误差和测试误差

假设学习到的模型是训练误差是模型关于训练数据集的平均损失:
,其中N是训练样本容量。

测试误差是学习到的模型关于测试数据集的平均损失:,其中T是测试数据集的容量。

2.3 过拟合

过拟合指的是学习时选择的模型包含的参数过多,模型过于复杂,以致于出现这一模型在训练集上表现很好,对已知数据预测得很好,但对未知数据预测得很差的现象。与之对应的是模型过于简单的欠拟合,借用上课时的PPT来表示下这两种情况。
overfitting.png

下面这幅图表示过拟合、bias-variance之间的关系
overfitting and bias-variance dilemma.png

3、 正则化

为了解决过拟合问题,人们往往在经验损失函数的后面添加上一个正则化项。正则化是结构风险最小化策略的实现,正则化是在经验风险上加上表示模型复杂度的正则项或者罚项,在假设空间、损失函数以及训练数据集确定的情况下,结构风险的定义是
,其中表示模型的复杂度,是权衡经验风险和模型复杂度的系数;

正则化项对应于模型的先验概率,一般是模型复杂度的单调递增函数;比如,正则化项可以是模型参数向量的范数。如果取L1-norm的话容易得到稀疏解,如果取L2-norm的,相当于加上一个服从高斯分布的先验知识。下面列出几种加上不同正则项后的模型:

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注