@Antosny
2015-01-08T13:57:16.000000Z
字数 1241
阅读 2497
机器学习
Coursera
第四章遗留了一个问题,即当Hypothesis为无限多的时候,抽取一份训练数据(大小为N),能否依据在训练数据上的表现来选择h?
第五章第六章就来解决这个问题,首先回顾一下一份数据是BAD的概率:
对于某一种二元分类器(如感知器模型),在训练数据(大小为N)上可能产生的不同组合是有限的(即把X分成正例或者负例)。N个数据最多有
下面老师举了很多例子来计算它们的
并引入了一个叫做break point的概念,如果存在大小为k的数据集D,H没法涵盖D的所有情况(即
很显然,如果没有break point,那么
为此,定义一个函数
就是在break point为k时,N个样本在H上的最多可能性。
两个初始情况:
下面要证明一般情况,思路类似动态规划:
对于B(N,k),考虑从N-1个点出发。可以将B(N,k)根据最后一个点分为两种情况:1,前N-1个点一致,最后一个点不一样,即在最后一个点上成对,共
单独拿出
综上所述:
使用B(N,k)替换