@1007477689 2020-07-13T08:30:08.000000Z 字数 1789 阅读 896

线性回归：不能忽视的三个问题

公众号学习

I. 前言

线性回归是比较简单的机器学习算法，很多书籍介绍的第一种机器学习算法就是线性回归算法，笔者查阅的中文书籍都是给出线性回归的表达式，然后告诉你怎么求参数最优化，可能部分同学会忽视一些问题，至少笔者忽视了。因此，本文重点介绍了平常容易忽视的三类问题：

线性回归的理论依据是什么；
过拟合意味着什么；
模型优化的方向

II. 目录

线性回归的理论依据是什么；
过拟合意味着什么；
模型优化的方向；
总结

III. 线性回归的理论依据

1. 泰勒公式

若函数 $f(x)$ 在包含 $x_{0}$ 的某个闭区间 $[a,b]$ 上具有 $n$ 阶导数，且在开区间 $(a,b)$ 上具有 $(n+1)$ 阶导数，则对闭区间 $[a,b]$ 上任意一点 $x$ ，成立下式：

$f(x) = \frac{f(x_{0})}{0!} + \frac{f^{'}(x_{0})}{1!}(x - x_{0})^{1} + + \frac{f^{''}(x_{0})}{2!}(x - x_{0})^{2} + ... + \frac{f^{n}(x_{0})}{n!}(x - x_{0})^{n} + o(x - x_{0})^{n}$

令

$w_{n} = \frac{f^{n}(x_{0})}{n!}, \textbf{w} = w_{0}, w_{1}, ..., w_{n}$

我们有

$f(x) = \sum_{k=0}^{n}w_{k}\phi_{k} (x) + o(x - x_{0})^{n}$

$f(x) = \overline{\textbf{w}} \overline{\phi (x)} + o(x - x_{0})^{n}$

结论：对于区间 $[a,b]$ 上任意一点，函数值都可以用两个向量内积的表达式近似，其中 $\phi_{k}(x)$ 是基函数（basis function）， $w_{k}$ 是相应的系数。

高阶表达式 $o(x - x_{0})^{n}$ 表示两者值的误差（请回想您学过的线性回归表达式）。

2. 傅里叶级数

周期函数 $f(x)$ 可以用向量内积近似， $\phi_{n}(x)$ 表示基函数， $c_{n}$ 表示相应的系数， $\varepsilon$ 表示误差。

3. 线性回归

由泰勒公式和傅里叶级数可知，当基函数的数量足够多时，向量内积无限接近于函数值。线性回归的向量内积表达式如下：

$(x) = w_{0} + w_{1}\phi_{1}(x) + w_{2}\phi_{2}(x) + ... + w_{n}\phi_{n}(x) + \varepsilon$

$f(x) = \sum_{j=0}^{n}w_{j}\phi_{j} + \varepsilon$

$f(x) = \overline{w}_{j}^{T} \overline{\phi_{j} (x)} + \varepsilon$

IV. 过拟合问题

1. 过拟合定义

构建模型的训练误差很小或为 $0$ ，测试误差很大，这一现象称为"过拟合"。

2. 高斯噪声数据模型

我们采集的样本数据其实包含了噪声，假设该噪声的高斯噪声模型，均值为 $0$ ，方差为 $\sigma^{2}$ 。

若样本数据的标记为 $y_1$ ，理论标记为 $y$ ，噪声为 $\theta$ ，则有：

$y_{1} = y + \theta$

其中， $\theta$ 是高斯分布的抽样。

上节的线性回归表达式的方差 $\varepsilon$ 表示的意义是：噪声高斯分布的随机抽样，书本的线性回归表达式把方差 $\varepsilon$ 也包含进去了。

3. 过拟合原因

数学术语：当基函数的个数足够大时，线性回归表达式的方程恒相等。

$f(x) = \bar{w}_{j}^{T} \bar{\phi_{j}}{w}(x) + \varepsilon$

机器学习术语：模型太过复杂，以致于把无关紧要的噪声也学进去了。

当线性回归的系数向量间差异比较大时，则大概率设计的模型处于过拟合了。用数学角度去考虑，若某个系数很大，对于相差很近的 $x$ 值，结果会有较大的差异，这是较明显的过拟合现象。

过拟合的解决办法是降低复杂度。

V. 模型的优化方向

模型的不同主要是体现在：

参数个数；
参数大小
正则化参数 $\lambda$ ，

优化模型的方法是调节上面三个参数（但不仅限于此，如：核函数），目的是找到最优模型。

VI. 总结

本文通过泰勒公式和傅里叶级数的例子说明线性回归的合理性，线性回归表达式包含了方差项，该方差是高斯噪声模型的随机采样，若训练数据在线性回归的表达式恒相等，那么就要考虑过拟合问题了，回归系数间差异比较大也是判断过拟合的一种方式。模型优化的方法有很多种，比较常见的方法是调节参数个数，参数大小以及正则化参数 $\lambda$ 。