@haoqiang 2018-03-06T07:43:46.000000Z 字数 3310 阅读 104

线性回归

机器学习

1. 假设函数

h (x) = \sum i = 0 n θ i x i = θ T x

$h(x)=\sum_{i=0}^{n}{\theta_{i}x_{i}}=\theta^{T}x$

其中， $\theta$ 为权重， $x$ 为样本， $x_{i}$ 为特征， $x_{0}=1$ 。

2. 最小二乘损失函数

J (θ) = 1 2 \sum i = 1 m (h θ (x (i)) - y (i)) 2

$J(\theta)=\frac{1}{2}\sum_{i=1}^{m}{\left(h_{\theta}(x^{(i)})-y^{(i)}\right)^2}$

目标：寻找 $\theta$ ，使理论值 $h_{\theta}(x^{(i)})$ 接近于观测值 $y$ 。

3. 求解

将损失函数改写成矩阵形式：

J (θ) = 1 2 (X θ - y ⃗) T (X θ - y ⃗)

$J(\theta)=\frac{1}{2}(X\theta-\vec{y})^T(X\theta-\vec{y})$

当导数为0时，取到极小值：

\nabla θ J (θ) = \nabla θ 1 2 (X θ - y ⃗) T (X θ - y ⃗) = 1 2 \nabla θ (θ T X T X θ - θ T X y ⃗ - y ⃗ T X θ + y ⃗ T y ⃗) = 1 2 (X T X θ + X T X θ - 2 X T y ⃗) = X T X θ - X T y ⃗

$\begin{aligned} \nabla_{\theta}J(\theta) & =\nabla_{\theta}\frac{1}{2}(X\theta-\vec{y})^T(X\theta-\vec{y}) \\ & =\frac{1}{2}\nabla_{\theta}\left(\theta^TX^TX\theta-\theta^TX\vec{y}-\vec{y}^TX\theta+\vec{y}^T\vec{y}\right) \\ & =\frac{1}{2}(X^TX\theta+X^TX\theta-2X^T\vec{y}) \\ & =X^TX\theta-X^T\vec{y} \end{aligned}$

令 $\nabla_{\theta}J(\theta)=0$ ，可得： $\theta=(X^TX)^{-1}X^T\vec{y}$

当 $X$ 为非奇异矩阵时： $\theta=X^{-1}\vec{y}$
当 $X$ 为奇异矩阵或长方阵时： $\theta=X^+\vec{y}$

4. 用极大似然估计解释为什么选择最小二乘

y (i) = θ T x (i) + ε (i)

$y^{(i)}=\theta^{T}x^{(i)}+\varepsilon^{(i)}$

其中， $y^{(i)}$ 为观测值， $h(x)=\theta^{T}x^{(i)}$ 为理论值， $\varepsilon^{(i)}$ 为预测误差。

$\varepsilon^{(i)}\sim\mathcal{N}(0,\sigma^{2})$ ，即：

p (ε (i)) = 1 2 π - - \sqrt σ exp (- ( ε ( i ) ) 2 2 σ 2)

$p\left(\varepsilon^{(i)}\right)=\frac{1}{\sqrt{2\pi}\sigma}\exp\left(-\frac{(\varepsilon^{(i)})^{2}}{2\sigma^{2}}\right)$

则 $y^{(i)}\sim\mathcal{N}(\theta^{T}x^{(i)},\sigma^{2})$ ，即：

p (y (i) | x (i); θ) = 1 2 π - - \sqrt σ exp ⎛ ⎝ ⎜ ⎜ - ( y ( i ) - θ T x ( i ) ) 2 2 σ 2 ⎞ ⎠ ⎟ ⎟

$p\left(y^{(i)}|x^{(i)};\theta\right)=\frac{1}{\sqrt{2\pi}\sigma}\exp\left(-\frac{\left(y^{(i)}-\theta^{T}x^{(i)}\right)^2}{2\sigma^{2}}\right)$

$p(y^{(i)}|x^{(i)};\theta)$ 表示给定 $x^{(i)}$ 和 $\theta$ 后， $y^{(i)}$ 的分布。

极大似然估计：

L (θ) = \prod i = 1 m p (y (i) | x (i); θ) = \prod i = 1 m 1 2 π - - \sqrt σ exp ⎛ ⎝ ⎜ ⎜ - ( y ( i ) - θ T x ( i ) ) 2 2 σ 2 ⎞ ⎠ ⎟ ⎟

$\begin{aligned} L(\theta)&=\prod_{i=1}^{m}p\left(y^{(i)}|x^{(i)};\theta\right) \\ &=\prod_{i=1}^{m}\frac{1}{\sqrt{2\pi}\sigma}\exp\left(-\frac{\left(y^{(i)}-\theta^{T}x^{(i)}\right)^2}{2\sigma^{2}}\right) \end{aligned}$

$\max{L(\theta)}$ 等价于 $\max{\log{L(\theta)}}$

l (θ) = log L (θ) = log \prod i = 1 m 1 2 π - - \sqrt σ exp (- ( y ( i ) - θ T x ( i ) ) 2 2 σ 2) = \sum i = 1 m log 1 2 π - - \sqrt σ exp (- ( y ( i ) - θ T x ( i ) ) 2 2 σ 2) = m log 1 2 π - - \sqrt σ - 1 σ 2 (1 2 \sum i = 1 m (y (i) - θ T x (i)) 2)

$\begin{aligned} l(\theta)&=\log{L(\theta)} \\ &=\log{\prod_{i=1}^{m}\frac{1}{\sqrt{2\pi}\sigma}\exp\left(-\frac{(y^{(i)}-\theta^{T}x^{(i)})^2}{2\sigma^{2}}\right)} \\ &=\sum_{i=1}^{m}\log\frac{1}{\sqrt{2\pi}\sigma}\exp\left(-\frac{(y^{(i)}-\theta^{T}x^{(i)})^2}{2\sigma^{2}}\right) \\ &=m\log\frac{1}{\sqrt{2\pi}\sigma}-\frac{1}{\sigma^2}\left(\frac{1}{2}\sum_{i=1}^{m}(y^{(i)}-\theta^{T}x^{(i)})^2\right) \end{aligned}$

$\therefore\max{l(\theta)}$ 等价于：

min 1 2 \sum i = 1 m (y (i) - θ T x (i)) 2

$\min{\frac{1}{2}\sum_{i=1}^{m}\left(y^{(i)}-\theta^{T}x^{(i)}\right)^2}$

即最小二乘损失函数。

5. 正则化

J (θ) = 1 2 m ⎡ ⎣ \sum i = 1 m (h θ (x (i)) - y (i)) 2 + λ \sum j = 1 n θ 2 j ⎤ ⎦

$J(\theta)=\frac{1}{2m}\left[\sum_{i=1}^{m}{\left(h_{\theta}(x^{(i)})-y^{(i)}\right)^2}+\lambda\sum_{j=1}^{n}{\theta_j^2}\right]$

注意： $\theta_0$ 为偏置，不加正则。

梯度下降
$j=0$ 时，即偏置：

θ 0 : = θ 0 - α 1 m \sum i = 1 m (h θ (x (i)) - y (i)) x (i) 0

$\theta_0:=\theta_0-\alpha{\frac{1}{m}\sum_{i=1}^{m}{\left(h_{\theta}(x^{(i)})-y^{(i)}\right)x_0^{(i)}}}$

$j>0$ 时，即权重：

θ j : = θ j (1 - α λ m) - α 1 m \sum i = 1 m (h θ (x (i)) - y (i)) x (i) j

$\theta_j:=\theta_j(1-\alpha\frac{\lambda}{m})-\alpha{\frac{1}{m}\sum_{i=1}^{m}{\left(h_{\theta}(x^{(i)})-y^{(i)}\right)x_j^{(i)}}}$
其中，

αλm $\alpha\frac{\lambda}{m}$ 略小于1，每次更新后会削减权重。

6. 扩展

Ridge 回归=线性回归+L2正则
LASSO 回归=线性回归+L1正则