@SuperMan
2016-10-14T12:28:17.000000Z
字数 1080
阅读 598
- 1.定义
X:输入空间,所有可能的数据
Y:输出空间,所有可能标记
concept c:映射
C: 希望学习得到的概念集合
S:样本
D:分布(函数)
H:可能的concept
:样本中可能的concept
m:样本大小
样本误差:
若对于任意实数,X上的任意分布D,任意,都存在一个算法A和多项式(函数),满足: ,且
,则认为C是PAC-可学习的.
若多项式(函数)依赖于算法A,则称C是有效PAC可学习的。- . PAC框架的性质
不依赖于分布(函数)
训练集和测试集取自相同分布(函数)
- 若对于任意实数,X上的任意分布D,任意,都存在一个算法A和多项式(函数),满足: ,且
,则认为A是一个不可知PAC-可学习的算法.
贝叶斯误差:
D:上的分布
h:
当 R(h)=时的h称为Bayes hypothesis 或者 Bayes classifier噪声:
:假设集合H具有最小误差的项
:估计项
:近似项
: 由最小经验误差算法(ERM)返回的h
- 考虑的是大小逐渐递增的假设集合H的递增无穷序列
对于机器学习的一般模型必须从有限的数据集,随之会产生过拟合的问题。而SRM通过平衡模型的复杂度和拟合的相似度解决了这个问题。(From Wikipedia)