@Hederahelix 2015-05-28T11:22:49.000000Z 字数 2996 阅读 2367

第一章 Introduction

PRML 机器学习

此处输入图片的描述

章节细讲

1.1 Example: Polynomial Curve Fitting
模型复杂度在这节用参数个数和惩罚系数两种表示。参数个数以为着模型越灵活，反之，模型拟合能力越弱。在给定有限的数据集中，当参数个数过大时，会产生过拟合效应，即模型灵活度过高，拟合了数据集的噪音，使得泛化能力变弱。另一方面，参数过少，模型可能无法拟合总体的规律，出现欠拟合效应。当我们加入惩罚项后，模型的灵活度不再是参数个数，而是惩罚系数。即惩罚系数越大，模型灵活度变低，相反灵活度变高。
此处输入图片的描述
上图中，模型复杂度是由参数个数来决定，可以看出参数个数等于9的时候，模型过拟合，曲线在测试点之间变得很不稳定。相反当模型复杂度小于3的时候，模型欠拟合，模型拟合能力很差，并不难很好的去拟合所有测试点。
此处输入图片的描述
同上图一样，只不过模型灵活度因为加入惩罚项后由惩罚系数来决定，左图中惩罚系数较低，模型灵活度较高，可以使残差很低，而右图则出现欠拟合现象。

1.2. Probability Theory
当我们在看到数据以前我们对某个事件有一个自己的“看法”，即先验分布，当有了数据以后，我们对这个事件的“看法”可能发生了变化，即后验分布。
1.2.3 Bayesian probabilities
与其说是贝叶斯学派对“概率”这个概念的解释，不如说是概率碰巧可以作为量化贝叶斯学派“degree of belief”这个概念的手段。贝叶斯学派认为某个未知的事件都有一个“uncertainty”的概念，对此给予“degree of belief”以度量不确定性。Cox 证明了如果要用数值去表示“degree of belief”，则表示“degrees of belief”的公理是等价于“概率”的 sum and product rules 因此之故，我们才可以用概率论去量化“degree of belief”。

对于Frequentist来说，model parameter w是一个固定但未知的量，即并非是随机变量，所以用“estimator”来估计；最常见的estimator是likelihood。而对Bayesian来说，参数w本身是一个不确定量，即随机变量，其不确定性用prior probability p(w)表示。由于两个学派在对待变量的方式上存在差异，因此在设计实验是也有很大区别。为了获知固定且未知的w，Frequentist进行用bootstrap重复多次的试验，获得不同的data sets D，因此在每个数据集上我们都可以对参数进行点估计，由此可以得到参数值得准确度。而对于Bayesian而言，数据集只有一个，因此在得到一个数据集D后，贝叶斯学派要调整原来在未得到数据前对于w的belief（prior probability），用用后验概率P(w|D)表示调整后的belief。调整的方法则是上节提到的贝叶斯定理。

1.5. Decision Theory
对于监督学习一般分为两阶段：先做inference，然后做decision。在inference stage，要得到联合概率分布或者后验概率分布，在decision stage，则用posterior probability to make optimal class assignments。
1.5.1 Minimizing the misclassification rate
此处输入图片的描述
图中是两个类别的“总体”的联合概率，从图中可以看出，当决策面是在两个类后验概率相等时，误分率最低。在实际计算中，由于不知道“总体”的联合概率，我们用“样本”的后验概率来确定决策面。
1.5.4 Inference and decision
有监督学习一般有三种解决方式：
1. discriminant function: map inputs x directly into decisions. 因此discriminant function把inference和decision合作一部解决了。
2. discriminant model: 第一步，解决inference problem，通过训练集对后验概率建模；第二步，解决decision problem，对于新给定的x，把它分配给某一个class。
3. generative model：第一步，explicitly or implicitly model the distribution of inputs as well as outputs，即通过训练集建模先验数据 $p(C_1)$ 和条件概率 $p(x|C_1)$ . 第二步，解决decision problem，对于新给定的x，把它分配给某一个class。

1.6. Information Theory
Conditional entropy：设有联合概率 $p(X,Y)$ ，则条件熵H[Y|X]为一个期望/平均值：

H (Y | X) = \sum x p (x) H (Y | X = x) = - \sum x p (x) \sum y p (y | x) l n p (y | x) = \sum x \sum y p (x, y) l n p (y | x)

$\begin{aligned} H(Y|X)&=\sum_x p(x)H(Y|X=x)\\ &=-\sum_x p(x)\sum_y p(y|x)ln\ p(y|x)\\ &=\sum_x \sum_y p(x,y)ln\ p(y|x) \end{aligned}$
根据上面的定义，可见要定义条件熵

H[Y|X] $H[Y|X]$ ，先需定义当给定

X=x $X=x$ 时，Y的熵。即：

H (Y | X = x) = \sum y p (y | x) l n p (y | x)

$H(Y|X=x)=\sum_y p(y|x)ln\ p(y|x)$

Relative entropy：设有一个未知的分布 $p(x)$ ，而 $q(x)$ 为我们所获得的一个对 $p(x)$ 的近似；按照 $q(x)$ (而非真实分布 $p(x)$ )对该随机变量的各个值进行编码，平均编码长度比用真实分布 $p(x)$ 进行编码要额外长多少？答案是相对熵(KL距离) $KL(p||q)$ 。即

K L (p | | q) = \sum x p (x) l n p ( x ) q ( x )

$KL(p||q)=\sum_x p(x)ln \frac{p(x)}{q(x)}$

Mutual information：如果两个随即变量X,Y是独立的，那么有p(x, y)=P(x)P(y)；当二者并不独立时，我们希望可以度量它们离独立还有多远，这个度量就是互信息：

I (x, y) = K L (p (x, y) | p (x) p (y)) = H (x) - H (x | y) = H (y) - H (y | x)

$I(x,y)=KL(p(x,y)|p(x)p(y))=H(x)-H(x|y)=H(y)-H(y|x)$

全章概况

此处输入图片的描述
本章是第一章，重点阐述几个机器学习常见话题，例如model selection、the curse of dimenstionality和三个重点部分即，概率论，决策论和信息论。在概率论中，重点讲解了贝叶斯学派和频率派对于参数认识的不同。在得到后验概率或者联合概率之后，决策论说明了应该怎么返回类标号或者目标值而使损失函数最小。最后介绍了信息论中三个重要话题即熵的意义，KL距离和互信息。

参考资料

PRML, chapter 1
Notes on Pattern Recognition and Machine Learning (Jian Xiao)
Pattern Recognition And Machine Learning 读书会, chapter 1

第一章 Introduction

章节细讲

全章概况

参考资料

内容目录