@coolwyj 2017-07-10T09:04:46.000000Z 字数 3854 阅读 4240

从概率论角度来理解线性回归中的最小二乘法、Ridge回归、Lasso回归以及稀疏编码

概率论 回归分析

从概率论角度来理解线性回归中的最小二乘法、Ridge回归、Lasso回归以及稀疏编码

本文参考：
https://www.zhihu.com/question/20447622
http://ufldl.stanford.edu/tutorial/unsupervised/SparseCoding/

本文涉及了线性回归的最小二乘法、Ridge回归、Lasso回归以及稀疏编码。这些方法的共性在于均具有线性关系。从概率角度来理解这些方法，切入点在于对误差的建模。

从概率论角度来理解线性回归中的最小二乘法、Ridge回归、Lasso回归以及稀疏编码

假设线性模型具有如下形式，与一般形式的不同点在于引入了误差项。

$f(x)=\sum_{j=1}^{d}x_{j}\omega_{j}+\epsilon$
其中

$x \in \Re^{1 \times d} , w \in \Re^{1 \times d}$ ，误差

$\epsilon \in \Re$
当前已知

$X=\{x_{1} \cdots x_{n}\} \in \Re^{n \times d}, y \in \Re^{n \times 1}$ ，要求

$w$
有

$\epsilon_{i} = f(x_{i}) - \sum_{i=1}^{d}x_{i}\omega_{i}$

1、最小二乘法

假设误差满足 $\epsilon_{i} \in \aleph(0, \sigma)$ ，那么用最大似然估计求解有：

$\begin{align} argmax_{w} \quad L(w) & = ln \prod_{i=1}^{n} \frac{1}{\sigma \sqrt{2\pi}} e^{ -\frac{(y_{i}-\omega_{i}^{T}x_{i})^{2}}{2\sigma^2} } \\\\ & = -\frac{1}{2\sigma^{2}} \sum_{i=1}^{n}(y_{i}-\omega^{T}x_{i})^{2} - nln\sigma\sqrt{2\pi} \end{align}$

$argmin_{w} \quad f(w) = \sum_{i=1}^{n}(y_{i}-\omega^{T}x_{i})^{2}=\lVert y - \omega^{T} X \rVert_{2}^{2}$

2、Ridge回归

假设误差满足 $\epsilon_{i} \in \aleph(0, \sigma) , \omega_{i} \in \aleph(0, \tau)$ ，用最大后验估计推导：

$\begin{align} argmax_{w} \quad L(w) & = ln \prod_{i=1}^{n} \frac{1}{\sigma \sqrt{2\pi}} e^{ -\frac{(y_{i}-\omega_{i}^{T}x_{i})^{2}}{2\sigma^2} } \cdot \prod_{j=1}^{d} \frac{1}{\tau \sqrt{2\pi}} e^{-\frac{\omega_{i}^{2}}{2\tau^{2}}} \\\\ & = -\frac{1}{2\sigma^{2}} \sum_{i=1}^{n}(y_{i}-\omega^{T}x_{i})^{2} -\frac{1}{2\tau^{2}} \sum_{i=1}^{d}\omega_{j}^{2} - nln\sigma\sqrt{2\pi} - dln \tau \sqrt{2\pi} \end{align}$

$\begin{align} argmin_{w} \quad f(w) & = \sum_{i=1}^{n}(y_{i}-\omega^{T}x_{i})^{2} + \lambda \sum_{j=1}^{d}\omega_{j}^{2} \\\\ & = \lVert y - \omega^{T} X \rVert_{2}^{2} + \lambda \lVert \omega \rVert_{2}^{2} \end{align}$

3、Lasso回归

假设误差满足 $\epsilon_{i} \in \aleph(0, \sigma) , \omega_{i} \in Laplace(0, b)$ ，用最大后验估计推导：

$\begin{align} argmax_{w} \quad L(w) & = ln \prod_{i=1}^{n} \frac{1}{\sigma \sqrt{2\pi}} e^{ -\frac{(y_{i}-\omega_{i}^{T}x_{i})^{2}}{2\sigma^2} } \cdot \prod_{j=1}^{d} \frac{1}{2b} e^{-\frac{\lvert \omega_{i} \rvert}{b} } \\\\ & = -\frac{1}{2\sigma^{2}} \sum_{i=1}^{n}(y_{i}-\omega^{T}x_{i})^{2} -\frac{1}{b} \sum_{i=1}^{d} \lvert \omega_{j} \rvert - nln\sigma\sqrt{2\pi} - dln 2b \end{align}$

$\begin{align} argmin_{w} \quad f(w) & = \sum_{i=1}^{n}(y_{i}-\omega^{T}x_{i})^{2} + \lambda \sum_{j=1}^{d} \lVert \omega_{j} \rVert_{1} \\\\ & = \lVert y - \omega^{T} X \rVert_{2}^{2} + \lambda \lVert \omega \rVert_{1} \end{align}$

4. 从概率角度解释稀疏编码

将自然图像看作是k个独立源 $\phi_{i}$ 以及噪声（误差） $\epsilon$ 的线性叠加。

$x = \sum_{i=1}^{k}\alpha_{i}\phi_{i} + \epsilon$
目标是找一组特征向量

$\phi$ 使得图像的分布函数

$P(x|\phi)$ 尽可能近似于输入数据的经验分布函数

$P^{\star}(x)$ 。可以通过最小化两个分布的KL散度来实现，即：

$argmin_{\phi} \quad D(P^{\star}(x) \Vert P(x| \phi)) = \int P^{\star}(x)log(\frac{P^{\star}(x)}{P(x|\phi)})$
由于

$P^{\star}(x)$ 是一个常量，所以只需要使

$P(x|\phi)$ 最大，即求

$P(x|\phi)$ 的最大似然估计。
假设噪声

$\epsilon_{i} \in \aleph(0, \sigma)$ ，则有下式成立：

$P(x|\phi,\alpha)= \frac{1}{Z}e^{-\frac{(x-\sum\alpha\phi)^{2}}{2\sigma^{2}}}$
所以为了求

$P(x|\phi)$ ，可以先求出

$P(\alpha)$ ，这样就有

$P(x|\phi) = \int P(x|\phi,\alpha)P(\alpha) d\alpha$ 。
假设各个特征变量之间相互独立，那么有

$P(\alpha) = \prod P(\alpha_{i})$
同时，引入稀疏假设S，令

$P(\alpha_{i})= \frac{1}{Z}e^{-\beta S(\alpha_{i})}$ 。这里S会决定先验分布的形状。
由以上分析，我们的问题可以转化为：

$\phi^{\star} = argmax_{\phi} \quad E[log(P(x|\phi))]$
由于对

$\alpha$ 的积分难于求解，因此使用其最大值来作为近似估计值。（因为

$\alpha$ 的分布足够陡峭）
这样，我们的问题就转化为了

$\phi^{\star '} = argmax_{\phi} \quad max_{\alpha} log(P(x|\phi))$
通过减小

$\alpha$ 扩大

$\phi$ 可以增大概率的估算值，因此需要对

$\phi$ 加以限制。最后，我们可以定义一种线性生成模型的能量函数，从而将原先的代价函数重新表述为：

$\begin{align} E(x,\alpha | \phi) & = -log(P(x|\phi,\alpha)P(\alpha)) \\\\ & = \sum_{j=1}^{m} \lVert x^{j} - \sum_{i=1}^{k}\alpha_{i}{j}\phi_{i} \rVert^{2} + \lambda\sum_{i=1}^{k}S(\alpha_{i}^{j}) \end{align}$
因为最大化对数似然函数等同于最小化能量函数（见RBM中关于能量函数以及正则分布的表述。温度相同时，能量越小，处于该状态的概率越大），我们就可以将原先的优化问题重新表述为：

$\phi^{\star},\alpha^{\star} = argmin_{\phi,\alpha} \quad \sum_{j=1}^{m} \lVert x^{j} - \sum_{i=1}^{k}\alpha_{i}{j}\phi_{i} \rVert^{2} + \lambda\sum_{i=1}^{k}S(\alpha_{i}^{j})$
当稀疏函数S选择L1和

$log(a+\alpha^{2})$ 时，分别对应于使用了拉普拉斯概率

$P(\alpha_{i}) \varpropto e^{-\beta \lvert \alpha_{i} \rvert}$ 和柯西先验概率

$P(\alpha_{i}) \varpropto \frac{\beta}{1+\alpha_{i}^{2}}$