@a335031 2014-09-13T08:16:31.000000Z 字数 1959 阅读 3138

斯坦福-机器学习

斯坦福 机器学习

第一讲

机器自己和自己下棋，从中不断学习成长，最终战胜创造该程序的作者。

无监督聚类算法实现2D到3D的转换。
从合成的声音中分开。

第二讲

Today:

Linear regression
Gradient descent
Normal equations

我们称学习问题是一个回归问题，如果目标变量是连续的。相对地，我们称一个学习问题是分类问题，如果目标变量是离散的。
在学习算法中，我们称输入为特征，输出为目标。
通常我们会对要处理问题做一些假设（hypothesis）。例如，我们假设问题是线性的：

h θ (x) = θ 0 + \sum i = 1 n θ i x i

$h_\theta(x)=\theta_0+\sum_{i=1}^n\theta_ix_i$
其中

h $h$ 被称为假设。
另外，如果设

x0=1 $x_0=1$ ，则公式可以写的更紧凑一些：

h θ (x) = \sum i = 0 n θ i x i = θ T x

$h_\theta(x)=\sum_{i=0}^n\theta_ix_i=\theta^Tx$
在线性回归中，学习指的就是寻找最优的参数，其中我们使用最小二乘来刻画最优性，即：

J (θ) = 1 2 \sum j = 1 m (h θ (x (j)) - y (j)) 2 θ ~ = arg θ min J (θ)

$J(\theta)=\frac{1}{2}\sum_{j=1}^{m}(h_\theta(x^{(j)})-y^{(j)})^2\\ \tilde{\theta}=\arg_\theta\min J(\theta)$

递归下降算法

批（batch）递归下降算法：

θ (k + 1) = θ (k) - α ▽ J (θ (k)) θ (k + 1) i = θ (k) i - α \partial \partial θ i J (θ (k)) \partial \partial θ i J (θ) = \sum j = 1 m (h θ (x (j)) - y (j)) x (j) i

$\theta^{(k+1)}=\theta^{(k)}-\alpha\triangledown J(\theta^{(k)})\\ \theta_i^{(k+1)}=\theta_i^{(k)}-\alpha\frac{\partial}{\partial\theta_i}J(\theta^{(k)})\\ \frac{\partial}{\partial\theta_i}J(\theta)=\sum_{j=1}^m(h_\theta(x^{(j)})-y^{(j)})x_i^{(j)}$
其中

α $\alpha$ 被称为学习速度。
该算法能够保证收敛，因此在数据量较小时表现很好。

随机（stochastic）递归下降算法：
很容易想到，重新安排计算的顺序，来简化实际编码：

θ (k + 1) i = θ (k) i - α (h θ (k) (x (k)) - y (k)) x (k) i x (k) \equiv x (((k - 1) % m) + 1) y (k) \equiv y (((k - 1) % m) + 1)

$\theta_i^{(k+1)}=\theta_i^{(k)}-\alpha(h_{\theta^{(k)}}(x^{(k)})-y^{(k)})x_i^{(k)}\\ x^{(k)}\equiv x^{(((k-1)\%m)+1)}\\ y^{(k)}\equiv y^{(((k-1)\%m)+1)}$
注意上标的变化，该算法不是简单地重排了批方法的计算顺序。另外，还有一点值得注意，该方法并不会收敛，而是在最小值附近徘徊。在大数据量的学习中，该方法很有效。

解析解

$X^TX\theta=X^Ty$
简化求导运算的方法：
$trABC=trCAB=trBCA$
$\triangledown_AtrAB=B^T$
$\triangledown_AtrABA^TC=CAB+C^TAB^T$

符号定义

$x_j^{(i)}$ 表示第 $i$ 个样本的第 $j$ 个特征。

第三讲

局部加权线性回归中的局部体现在其大权值在局部集中，例如：

J (θ) = 1 2 \sum i = 1 m w i (h θ (x i) - y i) 2 w i = exp (- ( x i - x ) 2 2 τ 2)

$J(\theta)=\frac{1}{2}\sum_{i=1}^{m}w_i(h_\theta(x_i)-y_i)^2\\ w_i=\exp\left(-\frac{(x_i-x)^2}{2\tau^2} \right)$
其中

τ $\tau$ 被称为带宽（bandwidth）参数。
局部加权线性回归算法的无参数体现在你不必考虑要提取多少特征。在线性回归中，太少的特征会造成欠拟合，而过多的特征则会造成过拟合。之所以会产生这些麻烦是因为我们对于要学习的内容并不了解，即甚至不知道它有多少特征，如果我们能确定将要学习的内容的所有特征，那么我们就不必使用局部回归了。

我们为什么要选择最小二乘作为最优性的度量呢？有很多假设可以使得最小二乘变得有意义。需要指出的是，有些假设并不一致。
我们希望 $J(\theta)$ 与似然函数相似。

斯坦福-机器学习

第一讲

第二讲

递归下降算法

解析解

符号定义

第三讲

内容目录