@frank-shaw 2015-07-25T06:53:10.000000Z 字数 1338 阅读 3251

3月机器学习在线学习班第17课part2--SVD

机器学习

SVD全称Singular Value Decomposition，即为奇异值分解，是矩阵分解知识的一部分。矩阵分解常用的就是特征值分解，特征值分解针对的是对应矩阵为方阵的情况。而奇异值分解针对的是对应矩阵非方阵的情况。

矩阵分解

方阵的分解

1.假设 $A$ 是 $M \times M$ 方阵，有 $M$ 个特征向量，那么存在以下矩阵分解：

A = U Λ U - 1

$A = U\Lambda U^{-1}$
其中

U $U$ 的列为

A $A$ 的特征向量，

Λ $\Lambda$ 为对角矩阵，其中对角线上的值为

A $A$ 的特征值，按照从大到小排列。
2.假设

A $A$ 是

M×M $M \times M$ 方阵，并且是对称阵，有

M $M$ 个特征向量，那么存在以下矩阵分解：

A = Q Λ Q T

$A = Q\Lambda Q^{T}$
其中

Q $Q$ 的列为

A $A$ 的特征向量，

Λ $\Lambda$ 为对角矩阵，其中对角线上的值为

A $A$ 的特征值，按照从大到小排列。由于对称阵的性质，有

QT=Q−1 $Q^T = Q^{-1}$ 。

奇异值分解

假设此时的 $A$ 不再是方阵，而是 $M \times N$ 矩阵，那么存在矩阵 $U$ 是 $M \times M$ 矩阵，其中 $U$ 的列为 $AA^T$ 的正交特征向量；存在矩阵 $V$ 是 $N \times N$ 矩阵，其中 $V$ 的列为 $A^TA$ 的正交特征向量； $AA^T$ 与 $A^TA$ 的特征值相同，为 $\lambda_1,...,\lambda_r$ ，其中 $r$ 为矩阵的秩，则存在奇异值分解：

A = U Λ V T

$A = U\Lambda V^T$

Λ $\Lambda$ 为

M×N $M \times N$ 矩阵，其中

Λii=λi−−√=σi $\Lambda_{ii} = \sqrt{\lambda_i} = \sigma_i$ ，其余位置数值为0，且

σi $\sigma_i$ 的值按照从大到小排序。我们称

σi $\sigma_i$ 为矩阵

A $A$ 的奇异值。
奇异值分解的图形表示如下：
奇异值分解示意图

用 $A$ 乘以转置矩阵 $A^T$ ，可得：

A A T = U Λ V T V Λ U T = U Λ 2 U T

$AA^T = U\Lambda V^T V\Lambda U^T = U\Lambda^2 U^T$
该式正是对称矩阵的分解。

SVD的应用

数据压缩

在实际应用中，往往只保留 $\Lambda$ 的前k个较大的数，其余的都去掉。由特征值相关的那一套理论可以知道，特征值较大的部分占有的数据信息量较大，在一定程度上可以对数据做到还原。而有些时候，因为实际计算的存储空间有限，我们会使用SVD来进行数据压缩处理：使用较少的空间来尽量保存原来的数据。如下图所示：

我们想要保存左边的矩阵，那么经过SVD分解之后得到右边的三个矩阵，通过只取 $\Lambda$ 的前k个较大的数，我们使用右边三个橙色的小矩阵来表示左边的大矩阵。相应的，存储三个小矩阵的空间相对而言会小一点。

求伪逆

如果矩阵 $A$ 的奇异值分解为 $A = U\Lambda V^T$ ，那么 $A$ 的伪逆为 $A^+ = U\Lambda^+ V^T$ 。其中 $\Lambda^+$ 为 $\Lambda$ 的伪逆，是将主对角线上每个非零元素都求倒数之后再转置得到的。正是因为 $\Lambda^+$ 容易求得，所以SVD会被用于求伪逆中。

SVD用于推荐系统

看了一下《推荐系统：技术、ing股及高效算法》里介绍的SVD使用，感觉这一块过于复杂，以后专门介绍~