@Hederahelix 2015-05-18T03:48:37.000000Z 字数 6916 阅读 2362

第三章 Linear Models for Regression

PRML 机器学习

此处输入图片的描述

章节细讲

3.1 Linear Basis Function Models
重点讲了线性模型中基函数的概念，从频率派观点下看线性模型。
3.1.1 Maximum likelihood and least squares
作者从概率角度去建立线性模型，然后证明了在高斯误差假设( $t=y(x,w)+\epsilon \quad \epsilon\sim N(0,\beta^{-1})$ )下的最大似然函数等价于最小二乘法。
3.1.2 Geometry of least squares
最小二乘的解可以看成真实解到基函数张成空间的投影
3.1.3 Sequential learning
介绍了随机梯度下降，即每次随机选取一个测试点计算梯度而非遍历所有测试集
3.1.4 Regularized least squares
因为最小二乘法会导致过拟和，所以一般会在损失函数中加入正则项。加入正则项后：
1. 解析解由原来的 $w=(\Phi^T\Phi)^{-1}\Phi^Tt$ 变为了 $w=(\lambda I+\Phi^T\Phi)^{-1}\Phi^Tt$ ，正是由于在 $\Phi^T\Phi$ 加入了 $\lambda I$ ，使得矩阵 $\lambda I+\Phi^T\Phi$ 正定，保证了括号里的矩阵是可逆的，而原来的 $\Phi^T\Phi$ 是非负矩阵，不能保证可逆。
2. 一范式的正则项还能使参数稀疏的特性：
此处输入图片的描述

m i n \sum n = 1 N t n - w T Φ (x n) 2 \sum j = 1 M | w j | q \leq η (1) (2)

$\begin{eqnarray} &min \sum_{n=1}^N{t_n-w^T\Phi(x_n)}^2 &\qquad (1)\\ &\sum_{j=1}^M |w_j|^q\leq \eta &\qquad (2) \end{eqnarray}$
图中蓝色的等高线是(1)式的图形，左下角红色区域对应(2)式。很显然因为一范式是个菱形相比于二范式的圆来说更容易在坐标轴上与蓝色圆相切，即更容易让某些参数为0，达到稀疏的目的
3.1.5
介绍多输出参数的模型

3.2 The Bias-Variance Decomposition
我们已经知道期望损失是 $E[L]=\int\{y(x)-h(x)\}^2p(x)dx+\int\{h(x)-t\}^2p(x,t)dxdt$ ，其中 $h(x)=\int tp(t|x)dt$ 是总体分布内在的“规律”，式子中的第二项是总体内在的随机噪声，是不可约的，因此我们需要找到一个合适的 $y(x)$ 去拟合总体的 $h(x)$ ，如果我们有“无限多”的训练样本，我们就可以任意精度去拟合总体的“规律”，。然而，我们不可能有“无限多”的样本，所以我们不能确切的知道 $h(x)$ ，但我们可以假设模型 $y(x,w)$ 去拟合 $h(x)$ ，并且假设我们拥有N个从总体分布 $p(x,t)$ 独立抽出的训练集 $D_i$ ，然后在每个训练集 $D_i$ 训练模型 $y(x,w)$ 得到一个预测模型 $p(x|D_i)$ ，而 $E_D[y(x|D)]$ 表示在所有不同训练集 $D_i$ 的平均模型。

{y (x | D) - h (x)} 2 \int {y (x) - h (x)} 2 p (x) d x e x p e c t e d l o s s = {y (x | D) - E D [y (x | D)] + E D [y (x | D)] - h (x)} 2 = {y (x | D) - E D [y (x | D)]} 2 + {E D [y (x | D)] - h (x)} 2 + 2 {y (x | D) - E D [y (x | D)]} {E D [y (x | D)] - h (x)} = E D [{y (x | D) - h (x)} 2] = E D [{y (x | D) - E D [y (x | D)]} 2]                                  v a r i a n c e + {E D [y (x | D)] - h (x)} 2                          b i a s 2 = (b i a s) 2 + v a r i a n c e + n o i s e

$\begin{aligned} \{y(x|D)-h(x)\}^2&=\{y(x|D)-E_D[y(x|D)]+E_D[y(x|D)]-h(x)\}^2\\ &=\{y(x|D)-E_D[y(x|D)]\}^2+\{E_D[y(x|D)]-h(x)\}^2\\ &+2\{y(x|D)-E_D[y(x|D)]\}\{E_D[y(x|D)]-h(x)\}\\ \int\{y(x)-h(x)\}^2p(x)dx&=E_D[\{y(x|D)-h(x)\}^2]\\ &=\underbrace{ E_D[\{y(x|D)-E_D[y(x|D)]\}^2] }_{variance}+\underbrace{ \{E_D[y(x|D)]-h(x)\}^2 }_{bias^2}\\ expected\ loss &= (bias)2 + variance + noise \end{aligned}$
以上式子，说明了模型的期望损失由bias、variance和noise三部分构成。
此处输入图片的描述

上图第一行的惩罚系数最大，表示的是比较简单的模型，因此该模型“学习”能力有限，在不同数据集

Di $D_i$ 学习到的都是总体的“皮毛”，从第一列图中看出模型在不同数据集学习的曲线类似，但在第二列图中可以看出与真实总体“规律”有差距。相反，第三行的模型惩罚系数最小，是最复杂的模型，因此在不同数据集

Di $D_i$ 不仅学习真实总体的“规律”还“学习”了属于每个特定数据集的噪声，导致不同数据集学习的曲线相差很大，但模型均值与总体“规律”很类似。so，复杂的模型，“学习”能力强，方差很大，偏置小，相反，简单模型，“学习”能力弱，不同数据集方差小，与总体偏置大。
此处输入图片的描述

这幅图也说明了随着惩罚系数变大，模型变得更加复杂，因此方差将逐渐变大，而偏置逐渐变小，另外可以看出实际测试误差和方差和偏差之和有相似上升趋势，因此我们可以用方差和偏差之和来代替测试误差。
此外，值得一提的是，虽然偏置和方差分解很有意思，但实际用的较少，因为实际中，训练数据本身就很少，不太可能还将宝贵的数据分成几份去单独训练模型。正是由于训练数据的稀少，我们将介绍贝叶斯观点下的线性模型。

3.3 Bayesian Linear Regression
3.3.1 Parameter distribution

l n p (w | t) = - β 2 \sum {t n - w T Φ (x)} 2 - α 2 w T w + c o n s t (3.55)

$lnp(w|\textbf t)=-\frac{\beta}{2}\sum \{t_n-w^T\Phi(x)\}^2-\frac{\alpha}{2}w^Tw+const\qquad (3.55)$
可以从式3.55看出Ridge Regression其实可以由高斯先验导出，Lasso Regression与之类似，可以由Laplace先验导出。
此处输入图片的描述

上图是贝叶斯增量学习的一个示例，第一行第二列表示在没有得到任何数据时候，参数的先验概率，第三列的图示从先验概率抽出的6个不同参数组成的曲线。而第二行第一列，表示的是当得到一个数据点的似然函数，我们可以看到当我们得到一个数据点的时候，参数的后验概率相对于先验概率已经有很大不同了，而且从中抽出的6个参数组成的曲线都离观察点很近。第二行的后验概率将组成第三行的先验概率。随着我们得到的数据点变多，参数的后验概率越来越“紧”。
3.3.2 Predictive distribution
此处输入图片的描述

上图中红色线是预测函数(预测分布的均值)，红色区域是预测分布的方差，绿色线是总体真实函数，蓝色点是训练样本。我们可以看出当预测点里训练样本很近时，相应方差也小。反之，方差变大。
此处输入图片的描述

上面的图是从另外的角度阐述方差的道理，红色曲线是由预测分布抽样得来，可以看出红色曲线基本都会经过在蓝色测试点附近，而离蓝色测试点远的预测点，红色曲线差异就很大了。
3.3.3 Equivalent kernel

y (x, m n) = m T n ϕ (x) = β ϕ (x) T S N Φ T t = \sum n = 1 N β ϕ (x n) T S N ϕ (x n) t n = \sum n = 1 N k (x, x n) t n (3.60) k (x, x n) = β ϕ (x n) T S N ϕ (x n)

$\begin{aligned} &y(x,m_n)= m_n^T\phi(x)=\beta\phi(x)^TS_N\Phi^Tt=\sum_{n=1}^N\beta\phi(x_n)^TS_N\phi(x_n)t_n=\sum_{n=1}^Nk(x,x_n)t_n \qquad (3.60)\\ &k(x,x_n)=\beta\phi(x_n)^TS_N\phi(x_n) \end{aligned}$
这节主要讲了线性回归模型的“对偶模型”，从3.60式可以看出回归函数其实是由一系列测试值加权得到，离预测点越近的测试点权值越高，相反越低。

c o v [y (x), y (x')] = c o v [ϕ (x) T w, w T ϕ (x')] = ϕ (x) T S N ϕ (x') = β - 1 k (x, x') (3.63)

$\begin{aligned} cov[y(x),y(x')]&=cov[\phi(x)^Tw,w^T\phi(x')]\\ &=\phi(x)^TS_N\phi(x')=\beta^{-1}k(x,x')\qquad (3.63) \end{aligned}$
从3.63式可以看出回归函数的“对偶问题”，3.63式告诉我们相邻的预测值相关性会越大，在高斯回归模型中，我们显式定义了基函数

ϕ(x) $\phi(x)$ ，类似于SVM，我们可以通过核技巧来隐式定义

ϕ(x) $\phi(x)$ 。而通过直接定义预测点之间协方差的形式来预测的模型就是大名鼎鼎的高斯过程回归。

3.4 Bayesian Model Comparison
在前面频率派通过使用交叉验证或者单独的验证集来确定合适的惩罚项系数从而选择合适的模型。相比于贝叶斯来说，频率派需要单独的数据去选择模型，而贝叶斯仅仅需要训练集而不需要额外的数据做模型选择。
我们需要明确模型和模型参数的关系。简单来说，模型 $M_i$ 相当于hyper-parameter，而参数w则是parameter。一个模型不同于另一个模型，是因为hyper-parameter。例如：在多项式的曲线拟合中，多项式的阶M就是一个hyper-parameter，确定一个M值（多项式的阶）就是确定了一个model。在取定一个阶M后，参数w还有无数种取值可能；把这些取值可能进行marginalize，得到的就是model evidence，即由阶为M的多项式model生成当前所观察到的数据集 $D$ 的概率 $p(Mi|DD|M_i)=\int p(D|w,M_i)p(w|M_i)dw$ 。

Model averaging：把多个模型，用各自模型的后验概率加权平均，得到predictive distribution为 $p(t|x,D)=\sum_{i=1}^Lp(t|x,M_i,D)p(M_i|D)$
Model selection：只选择一个模型，即其中后验概率 $p(M_i|D)$ 最大的模型。这是一种approximation to model averaging。

此处输入图片的描述
上图是对model evidence的近似，式3.71可以看出，越复杂的模型，第一项越小，但是由于模型复杂，所以模型的参数空间很大， $\Delta w_{prior}$ 也会变大，而 $\Delta w_{posterior}$ 会变小，所以第二项会变小，因此复杂的模型第二项惩罚项会很大。

p (M i | D) = \int p (D | w, M i) p (w | M i) d w \approx p (D | w M A P) Δ w p o s t e r i o r Δ w p r i o r (3.70) l n p (M i | D) \approx l n p (D | w M A P) + l n (Δ w p o s t e r i o r Δ w p r i o r) (3.71)

$\begin{aligned} &p(Mi|D)=\int p(D|w,M_i)p(w|M_i)dw\approx p(D|w_{MAP})\frac{\Delta w_{posterior}}{\Delta w_{prior}}\qquad (3.70)\\ &lnp(Mi|D)\approx lnp(D|w_{MAP})+ln(\frac{\Delta w_{posterior}}{\Delta w_{prior}})\qquad (3.71) \end{aligned}$
此处输入图片的描述

这幅图比较了不同复杂度模型的model evidence，简单模型它能适应的数据集范围很小，而复杂的模型针对的数据集范围很大，但对于范围以内的某一个数据集的似然函数就会变低。

3.5 The Evidence Approximation
三种形式的Bayesian：
Fully Bayesian：需要对超参数和参数都进行边缘化(marginalize with respect to hyper-parameters as well as parameters)。而这样往往是analytical intractable的。例如 $p(w|a)=N(w|0,\alpha^{-1}I),p(t|x,w,\beta)=N(t|y(x,w),\beta^{-11})$ 来说，就是：

p (t | t) = ∭ p (t | w, β) p (w | t, α, β) p (α, β | t) d w d α d β

$p(t|\textbf t)=\iiint p(t|w,\beta)p(w|\textbf t,\alpha,\beta)p(\alpha,\beta|\textbf t)dwd\alpha d\beta$
Empirical Bayes/type 2 maximum likelihood/evidence approximation：对于超参数先求边缘似然概率

p(t|α,β) $p(t|α,β)$ (model evidence )最大的参数

α∗ $\alpha^*$ 和

β∗ $\beta^*$ ，然后使超参数取固定的值

α∗ $\alpha^*$ 和

β∗ $\beta^*$ ，再对参数边缘化：

p (t | t) \approx p (t | t, α *, β *) = \int p (t | w, β *) p (w | t, α *, β *) d w

$p(t|\textbf t)\approx p(t|\textbf t,\alpha^*,\beta^*)=\int p(t|w,\beta^*)p(w|\textbf t,\alpha^*,\beta^*)dw$
MAP：不涉及边缘化，仅仅是一种按照后验概率
最大化的点估计。
3.5.1 Evaluation of the evidence function
计算model evidence

p(t|α,β) $p(\textbf t|\alpha,\beta)$
3.5.2 Maximizing the evidence function
最大化model evidence

p(t|α,β) $p(\textbf t|\alpha,\beta)$ 求出最优解

α∗,β∗ $\alpha^*,\beta^*$
3.5.3 Effective number of parameters

γ=∑iλiλi+α $\gamma=\sum_i\frac{\lambda_i}{\lambda_i+\alpha}$ 表示模型的有效参数，很明显下图中

γ $\gamma$ 越小，有效参数就变少了。
此处输入图片的描述

全章概况

此处输入图片的描述
本章依旧分为频率派和贝叶斯派连个视角对各个知识点进行对比。首先作者介绍了线性模型的最大似然函数和最小二乘的联系，然后介绍了频率派为了解决最小二乘的过拟合问题而在损失函数引入了惩罚项。而在贝叶斯观点下MAP其实就是一种带惩罚项的回归模型，例如lasso可以近似是laplace先验，而ridge近似是高斯先验。接着作者介绍了最小二乘的几何含义和参数的增量学习。当然在贝叶斯章节也花了很大篇幅去介绍t时刻参数的后验概率可以很自然的作为t+1时刻参数的先验概率，以此达到贝叶斯参数增量学习的目的。而后又详细阐述了频率派对于模型选择的见解-偏执方差分解，认为模型的期望损失是由三部分组成，即内在不可约的误差、模型的偏置、模型的方差，通过优化这三部分数值可以选择出合适的模型，但是缺点就是需要将宝贵的测试集划分（CV操作也至少需要留出一份数据来做验证）。与之对应的贝叶斯则仅仅需要在训练集(不需要划分训练集)上做marginal就可以选择合适的模型复杂度。最后作者还讲述了三种不同层次的贝叶斯方法即MAP、Evidence Approximation、Fully Bayesian。

参考资料

PRML, chapter 3
Notes on Pattern Recognition and Machine Learning (Jian Xiao)
Pattern Recognition And Machine Learning 读书会, chapter 3

第三章 Linear Models for Regression

章节细讲

全章概况

参考资料

内容目录