@Antosny
2015-01-07T08:19:56.000000Z
字数 1497
阅读 3678
机器学习
Coursera
台大这门课真的很棒,前面几讲探讨了一个很基础但是很基石的问题。即训练误差与测试误差的关系。假设有N个训练样本,如果我们使用分类器在这些样本上得到了很低的训练误差,我们是否可以保证在测试数据上依然可以得到很低的误差呢?
第四章:
Probability to the Rescue
想象这么一种情况,有个大罐子,里面有很多绿色与橙色的球,橙色球的比例未知。要预测橙色球的比例,只能从罐子中抽样取出N个球,数一下N个球中有多少橙色的球,来近似。这个过程可以形式化为如下问题:
假设真正的橙色概率为
我们想知道的就是
Connection to Learning
首先上图,将罐子里的球与学习问题联系起来。
简单地说,假设原来的样本服从分布(函数)
Connection to Real Learning
如果只抽样一次数据,由于可选的函数很多(比如svm),可能就有一些函数在训练数据上表现很好,可是并不能说明这些函数就真的好。(老师举了个丢硬币的例子,让1000个人丢一样的硬币5次,总会有人拿到5次向上,可是就能说明他的硬币有魔力吗?)
现在的问题就是,可能你会想,抽一次数据,可能总有几个
这个时候Hoeffding又来帮忙了,假设一份数据
那么一份数据不好的概率是多少呢?
这个公式前两行好理解,
这解决了一个最基本的问题,就是可用的Hypothesis是有限的情况下应该怎么选择,但是就拿最简单的线性分类器来说,它的Hypothesis大小很显然是无限的,那应该如何选择呢?见第五章第六章。