@hanxiaoyang 2017-12-14T04:46:19.000000Z 字数 5666 阅读 3063

机器学习系列(14)_SVM碎碎念part2：SVM中的向量与空间距离

个人博客

cmd-markdown-logo

在支持向量机之数学理解的第一部分，我们看到了支持向量机的目标是什么。它的目标是利用间隔最大化来寻找最优分离超平面。

但我们如何计算间隔呢

SVM = Support VECTOR Machine

在Support Vector Machine中, 有一个单词-vector（向量）。
这意味着重要的是好好理解向量以及知道如何使用它们。

这里有一个关于今天所学的简短的总结：

向量是什么

它的规范

它的方向

如何加减向量

什么是点积

如何将一个向量映射到另一个向量上

当我们掌握了以上这些，我们会理解：

超平面的方程是什么

如何计算间隔

什么是向量

如果我们在二维空间上定义一个点A (3,4)，我们可以这样绘制它

cmd-markdown-logo

定义：任意点x=(x1,x2),x≠0指定了平面上的一个向量，即从原点的开始到x点结束的向量。

这个定义意味着，存在原点与A之间的向量。

cmd-markdown-logo

这个点的起始位置是原点 $O (0,0)$ ，图中的这个向量是向量 $\vec{OA}$ 。我们也可以称之为其他名字例如 $\mathbf{u}$ 。

注：你会发现我们写向量时，在向量上方有一个箭头，或者是将向量加粗。在这篇文章的剩余部分中，如果像 $\vec{OA}$ 这样由两个字母可以表示的，那么我将使用箭头来表示向量，否则的话将使用加粗字体来表示向量。

现在我们知道有一个向量，但我们仍然不知道什么是一个向量。

定义：向量是一个既有大小又有方向的对象。

我们现在看看这两个概念。

1) 向量大小

一个向量x的大小写作 $\|x\|$ ，称作向量的模。

对我们的 $\vec{OA}$ 来说， $\|OA\|$ 是线段 $OA$ 的长度。
cmd-markdown-logo
从图中我们可以很容易地使用勾股定理计算出距离OA：

$OA^2 = OB^2 + AB^2$

$OA^2 = 3^2 + 4^2$

$OA^2 = 25$

$OA = \sqrt{25}$

$\|OA\| =OA=5$

2) 向量的方向

方向是向量的第二个组成部分。
定义：向量 $\mathbf{u} (u_1,u_2)$ 的方向是向量 $\mathbf{w}(\frac{u_1}{\|u\|}, \frac{u_2}{\|u\|})$

向量 $\mathbf{w}$ 的坐标怎么得到的？

定义理解

要得到一个向量的方向，我们需要借助它的夹角。
cmd-markdown-logo
上图展示了向量 $\mathbf{u} (u_1,u_2)$ ，其中 $u_1=3$ ， $u_2=4$ 。

我们可以说：

Naive definition 1 : 向量 $\mathbf{u}$ 的方向是由与水平线的夹角 $\theta$ 和垂直线的夹角 $\alpha$ 的决定的。

这不是我们喜欢的，所以我们使用夹角的余弦值来替代。

直角三角形中，角 $\beta$ 的余弦的定义是

角 的 临 边 斜 边

$cos(\beta)=\frac{角的临边}{斜边}$

上图中向量与坐标轴形成了两个直角三角形，两个角的临边是两个坐标轴。这意味着，余弦的定义隐含包含与角相关的轴。我们可以改述我们的Naive definition如下：

Naive definition 2 : 向量 $\mathbf{u}$ 的方向是由夹角 $\theta$ 和夹角 $\alpha$ 的余弦值决定的。
现在我们来观察一下角度的余弦值：

$cos(\theta)=\frac{u_1}{\|u\|}$

$cos(\alpha)=\frac{u_2}{\|u\|}$
因此，这就是向量

$\mathbf{w}$ 最初的定义，也就是为什么他的坐标被称作方向余弦。

计算方向向量

我们现在要计算上图向量 $\mathbf{u}$ 的方向。

$cos(\theta)=\frac{u_1}{\|u\|}=\frac{3}{5} =0.6$

$cos(\alpha)=\frac{u_2}{\|u\|}=\frac{4}{5}=0.8$
向量

$\mathbf{u}(3,4)$ 的方向是向量

$\mathbf{w}(0.6,0.8)$ 。
我们在下图中绘制了这个方向向量：
cmd-markdown-logo

我们可以看出

$\mathbf{w}$ 和

$\mathbf{u}$ 看起来一样，只是

$\mathbf{w}$ 的值小一点。并且有趣的是方向向量（例如

$\mathbf{w}$ ）的模长为1。这也是为什么我们经常称之为单位向量。

两个向量的和

cmd-markdown-logo
有两个向量 $\mathbf{u} (u_1, u_2)$ 和 $\mathbf{v} (v_1, v_2)$ ,那么：

$\mathbf{u}+\mathbf{v}= (u_1+v_1, u_2+v_2)$
这意味着两个向量相加形成了第三个向量，第三个向量的坐标是初始两个向量坐标的加和。
你可以通过下面的例子说服自己：

cmd-markdown-logo

两个向量的差

类似的：

$\mathbf{u}-\mathbf{v}= (u_1-v_1, u_2-v_2)$
cmd-markdown-logo

由于减法是不可交换的，我们也应该考虑另一种情况：

$\mathbf{v}-\mathbf{u}= (v_1-u_1, v_2-u_2)$
cmd-markdown-logo

因为一个向量有大小和方向，所以我们通常认为平行向量（有着相同大小和方向但是不同起点的向量）是相同的向量，只是他们在空间内的不同位置。

所以遇到下图的情况时不要吃惊：
cmd-markdown-logo
和

如果从数学的角度来看，这么画该向量似乎是错的，因为向量 $\mathbf{u}$ - $\mathbf{v}$ 没在正确的点开始和结束。但它确实是思考向量的方便的思维方式。

点积

关于理解SVM的一个非常重要的概念就是点积。

定义：从几何学来说，它是两个向量的模长以及它们之间的夹角余弦值的乘积。

也就是意味着，如果我们有两个向量 $\mathbf{x}$ 和 $\mathbf{y}$ ,他们间的夹角为 $\theta$ ，他们的点积是：

$\mathbf{x} \cdot \mathbf{y} = \|x\| \|y\|cos(\theta)$

为什么

为了便于理解，我们看一下这个问题的几何图形

cmd-markdown-logo

在定义中我们写 $cos(\theta)$ ,让我们看一下他到底是什么。

通过定义我们知道在一个直角三角形中：

角 的 临 边 斜 边

$cos(\beta)=\frac{角的临边}{斜边}$
在我们的例子中，我们没有直角三角形。
然而我们换一种角度看，每一个向量可以和横纵坐标轴围成两个直角三角形：
cmd-markdown-logo

和

所以现在我们可以这么来看初始的几何图像：

cmd-markdown-logo

可以看出：

$\theta = \beta - \alpha$
所以计算

$cos(\theta)$ 就是在计算

$cos(\beta - \alpha)$
两角差的余弦公式为：

$cos(\beta - \alpha) = cos(\beta)cos(\alpha) + sin(\beta)sin(\alpha)$
(如果愿意的话请点击公式推导)

让我们开始用公式吧！

$cos(\beta) =\frac{adjacent}{hypotenuse} =\frac{x_1}{\|x\|}$

$sin(\beta) =\frac{opposite}{hypotenuse} =\frac{x_2}{\|x\|}$

$cos(\alpha) =\frac{adjacent}{hypotenuse} =\frac{y_1}{\|y\|}$

$sin(\alpha) =\frac{opposite}{hypotenuse} = \frac{y_2}{\|y\|}$
公式替换后有：

$cos(\theta) = cos(\beta - \alpha) = cos(\beta)cos(\alpha) + sin(\beta)sin(\alpha)$

$cos(\theta) = \frac{x_1}{\|x\|}\frac{y_1}{\|y\|}+ \frac{x_2}{\|x\|}\frac{y_2}{\|y\|}$

$cos(\theta) = \frac{x_1y_1 + x_2y_2}{\|x\|\|y\|}$

将 $\|x\|\|y\|$ 左移有：

$\|x\|\|y\|cos(\theta) = x_1y_1 + x_2y_2$
就等同于：

$\|x\|\|y\|cos(\theta) = \mathbf{x} \cdot \mathbf{y}$
我们发现了点积的几何定义！

关于定义的几句话

当我们在谈论 $\mathbf{x} \cdot \mathbf{y}$ 的点积是我们在谈论的是：

向量X，Y的内积（线性代数）

标量积，因为我们做两个向量的乘积，它返回一个标量（一个实数）。

向量的正交投影

有两个向量 $\mathbf{x}$ 与 $\mathbf{y}$ ,求出 $\mathbf{x}$ 在 $\mathbf{y}$ 上的正交投影。
cmd-markdown-logo
将 $\mathbf{x}$ 投射到 $\mathbf{y}$ 上

得到了向量 $\mathbf{z}$

通过定义：

$cos(\theta)= \frac{\|z\|}{\|x\|}$

$\|z\|=\|x\|cos(\theta)$
我们从点积那节得到：

$cos(\theta) = \frac{\mathbf{x} \cdot \mathbf{y}}{\|x\|\|y\|}$
在方程中替换

$cos(\theta)$ 有：

$\|z\|=\|x\|\frac{\mathbf{x} \cdot \mathbf{y}}{\|x\|\|y\|}$

$\|z\|=\frac{\mathbf{x} \cdot \mathbf{y}}{\|y\|}$
如果我们定义了

$\mathbf{u}$ 作为

$\mathbf{y}$ 的方向那么：

$\mathbf{u}=\frac{\mathbf{y}}{\|y\|}$
并且

$\|z\|=\mathbf{u} \cdot \mathbf{x}$
现在我们可以用一种简单的方式定义

$\mathbf{z}$ 的模：

$\mathbf{z}$ 与

$\mathbf{y}$ 有相同的方向向量

$\mathbf{u}$

$\mathbf{u}=\frac{\mathbf{z}}{\|z\|}$

$\mathbf{z}=\|z\|\mathbf{u}$
所以我们说：
向量

$\mathbf{z} = (\mathbf{u} \cdot \mathbf{x})\mathbf{u}$ 是向量

$\mathbf{x}$ 在

$\mathbf{y}$ 上的正交投影。

为什么我们对正交投影感兴趣？在我们的例子中，它使我们能够计算 $\mathbf{x}$ 与贯穿 $\mathbf{y}$ 之间的线的距离。
cmd-markdown-logo
我们可以看出距离就是 $\|x-z\|$ 。

$\|x-z\| = \sqrt{(3-4)^2 + (5-1)^2}=\sqrt{17}$

SVM的超平面

你可能知道一条线的方程是： $y = ax + b$ 。然而当读到有关超平面的知识时，你会经常看到超平面被这样定义：

$\mathbf{w}^T\mathbf{x} = 0$
这两种形式是如何联系的？
在超平面的方程可以看出，变量的名称是粗体的。这意味着它们是向量！此外

$\mathbf{w}^T\mathbf{x}$ 是两个向量的内积，并且如果你还记得，内积其实就是点积。
请注意，

$y = ax + b$
等同于

$y - ax - b= 0$
两个向量

$\mathbf{w}\begin{pmatrix}-b\\-a\\1\end{pmatrix}$ 与

$\mathbf{x}\begin{pmatrix}1\\x\\y\end{pmatrix}$

$\mathbf{w}^T\mathbf{x} = -b\times (1) + (-a)\times x + 1 \times y$

$\mathbf{w}^T\mathbf{x} = y - ax - b$
这两个方程只是表达同一事物的不同方式。
有趣的是要注意

$w_0$ 是

$-b$ ，那就意味着这个值确定了与纵轴的交点。
为什么我们用

$\mathbf{w}^T\mathbf{x}$ 这个方程式代表超平面而非

$y = ax + b$ 呢?
有两个原因：

在多于二维的空间里，这个方程式更适用

向量w垂直于超平面

计算一个点到超平面的距离第二个原因将派上用场。

计算点到超平面距离

下图中我们有一个超平面，他将两组数据划分开。

cmd-markdown-logo

为了简化这个例子，我们将 $w_0$ 设为0。
图中的超平面方程为：

$x_2 = -2x_1$
相当于：

$\mathbf{w}^T\mathbf{x}=0$
其中

$\mathbf{w}\begin{pmatrix}2 \\1\end{pmatrix}$ ，

$\mathbf{x} \begin{pmatrix}x_1 \\ x_2\end{pmatrix}$ 。请注意

$\mathbf{w}$ 是一个向量而非数据点。

我们要计算点 $A(3,4)$ 和超平面之间的距离

这是 $A$ 投影到超平面的距离。
cmd-markdown-logo

我们可以将点 $A$ 看作是一个从原点指向 $A$ 的向量。
我们将 $\mathbf{A}$ 向量投影到向量 $\mathbf{w}$ 上

cmd-markdown-logo

得到向量 $\mathbf{p}$

cmd-markdown-logo

我们的目标是找到点 $A(3,4)$ 和超平面之间的距离。
可以从上图中看到这个距离就是 $\|p\|$ 。让我们一起计算一下它的值：

向量 $\mathbf{w}=(2,1)$ 垂直于超平面，向量 $\mathbf{a} = (3,4)$

$\|w\|=\sqrt{2^2+1^2}=\sqrt{5}$
设向量

$\mathbf{u}$ 为

$\mathbf{w}$ 的方向向量

$\mathbf{u} = (\frac{2}{\sqrt{5}},\frac{1}{\sqrt{5}})$

$\mathbf{p}$ 是

$\mathbf{a}$ 在

$\mathbf{w}$ 上的投影，所以：

$\mathbf{p} = (\mathbf{u} \cdot \mathbf{a})\mathbf{u}$

$\mathbf{p} = ( 3 \times \frac{2}{\sqrt{5}} + 4 \times \frac{1}{\sqrt{5}}) \mathbf{u}$

$\mathbf{p} = (\frac{6}{\sqrt{5}} + \frac{4}{\sqrt{5}})\mathbf{u} \mathbf{p} = \frac{10}{\sqrt{5}}\mathbf{u}$

$\mathbf{p} = (\frac{10}{\sqrt{5}}\times\frac{2}{\sqrt{5}},\frac{10}{\sqrt{5}}\times\frac{1}{\sqrt{5}})$

$\mathbf{p} = (\frac{20}{5},\frac{10}{5})$

$\mathbf{p} = (4,2)$

$\|p\| =\sqrt{4^2+2^2} = 2\sqrt{5}$

计算超平面的间隔

我们得出了 $A$ 与超平面的距离 $\|p\|$ ，根据间隔公式有：

$margin = 2\|p\| = 4\sqrt{5}$
我们做到啦！我们算出了超平面的间隔！

结论

SVM之数学理解的第二部分到这里就结束了。
虽然还有很多数学背景没有介绍，但我希望你们可以没有问题的理解这篇文章。

下一步是什么？

现在我们知道如何计算间隔，我们可能想知道如何选择最优分离超平面，这将在第三篇文章：如何找到最优分离超平面中介绍。

机器学习系列(14)_SVM碎碎念part2：SVM中的向量与空间距离

SVM = Support VECTOR Machine

什么是向量

1) 向量大小

2) 向量的方向

定义理解

计算方向向量

两个向量的和

两个向量的差

点积

为什么

关于定义的几句话

向量的正交投影

SVM的超平面

计算点到超平面距离

计算超平面的间隔

结论

下一步是什么？

内容目录

选择主题