@elibinary 2017-08-12T08:37:11.000000Z 字数 3383 阅读 815

[笔记] 初识机器学习

MachineLearning

五大问题：
这是 A 还是 B？ -- 分类算法
这是否很奇怪？ -- 异常检测算法
多少？ -- 回归算法
组织方式为何？ -- 聚类分析算法
接下来应该怎么做？ -- 强化学习算法

Regression Algorithm

简单来说，假设我们有一个数据集，把其中每个数据项都是看作是给定空间的一个点，那么就可以得到一个点的集合，那么回归就是用一个函数去对这个点的集合进行拟合，使得点集与这个函数的偏差最小。

Linear Regression

线性回归的预测模型，也可以说是拟合函数是一个一次方程或者叫线性方程。

比如我们有一个数据集

$\begin{array}{cc} \mathrm{x} & \mathrm{y} \\ \hline \\ \mathrm{x_1} & \mathrm{y_1} \\ \mathrm{x_2} & \mathrm{y_2} \\ \mathrm{x_3} & \mathrm{y_3} \\ \mathrm{x_4} & \mathrm{y_4} \\ \mathrm{x_5} & \mathrm{y_5} \\ \end{array}$

为了拟合这些点，建立一个简单线性回归模型：

$y=ax + b$
接下来要做的就是估计该模型的参数，来使得我们的模型对数据达到最佳拟合状态。

线性回归把关注点放在给定 x 值的 y 的条件概率分布，而不是 x 和 y 的联合概率分布。

在计算一个最佳拟合的不同标准之中，最小二乘法是最常用的算法。

最小二乘法（又称最小平方法）是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。 -- from wiki

最小二乘法通过最小化每个数据点到线的垂直偏差平方和来计算最佳拟合线。

$\sum_{i=1}^m (y^i - f(x^i))^2$

推广至多元线性回归，那就是影响目标值 y 的元素有多个：

$y=ax + bz + cm + dn$
有数据：

$\begin{array}{cc} \mathrm{y} & \mathrm{x} & \mathrm{m} & \mathrm{n} \\ \hline \\ \mathrm{x_1} & \mathrm{y_1} & \mathrm{m_1} & \mathrm{n_1} \\ \mathrm{x_2} & \mathrm{y_2} & \mathrm{m_2} & \mathrm{n_2}\\ \mathrm{x_3} & \mathrm{y_3} & \mathrm{m_3} & \mathrm{n_3}\\ \mathrm{x_4} & \mathrm{y_4} & \mathrm{m_4} & \mathrm{n_4}\\ \mathrm{x_5} & \mathrm{y_5} & \mathrm{m_5} & \mathrm{5_1}\\ \end{array}$

线性回归是机器学习中一个最简单的监督学习(Supervised Learning)模型

Classification Algorithm

Bayes Classifiers

贝叶斯定理

贝叶斯定理是关于随机事件 A 和 B 的条件概率的一则定理，用公式来描述就是：

$P(A|B) = \frac{P(B|A)P(A)}{P(B)}$

可以看出，通过贝叶斯公式我们可以在已知三个概率函数时推出第四个。重要应用之一就是根据

$P(A|B)\quad ->\quad P(B|A)$

独立变量的联合分布：

$P(a_1, a_2, ... , a_n|y_j) = \prod_{i=1}^nP(a_i|y_j)$

应用

假设：
A: features

$A = (w_1, w_2, w_3, ... , w_n)$
B: category

求值： $P(B|A)$

$P(B|A) = P(B|w_1, w_2, ..., w_n) = \frac{P(w_1, w_2, ..., w_n|B)P(B)}{P(w_1, w_2, ... , w_n)}$

假设各特征之间相互独立，也就是 $w_1, w_2, w_3, ... , w_n$ 之间都相互独立，那么就有

$P(w_1, w_2, ... , w_n|B) = P(w_1|B)P(w_2|B)...P(w_n|B) = \prod_{i=1}^nP(w_i|B)$

那么最终问题就转化为了对 $P(B)$ 和 $P(w_x|B)$ 求值，或者叫估值
$P(B)$ 就是 B 在训练集中的相对频率
在处理 $P(w_x|B)$ 时，有几种不同的处理方式

高斯模型
高斯模型假设特征在各类别下的观测值符合高斯分布
也就是说对于 $w_x$ 有 $w_x$ ~ $N(\mu_b, \sigma_b^2)$

$P(w_x|B) = \frac{1}{\sigma\sqrt{2\pi}} \, \exp \left( -\frac{(w_x- \mu)^2}{2\sigma^2} \right)$

其中参数 $\mu, \sigma$ 可通过极大似然法来估计

多项式模型
多项式模型假设数据服从多项式分布

$P(w_x|B) = \frac{N_{bx} + \alpha}{N_b + \alpha n}$

$P(w_x|B)$ 是对于特征 x 在一个样本中被类 B 拥有的概率
$N_{bi}$ 是在训练集中，特征 x 在属于类 B 的样本中出现的次数
$N_b$ 是类 B 中的所有特征数量和

伯努利模型

Text Feature Extraction

文本特征提取主要用来提取出对待处理文本有价值的特征词，以此来缩小所需处理的集合，通常自然文本中会大量充斥着‘的、了’等等的停用词，以及一些对于处理区分度很低的词。这种对于目的无关紧要的词不仅会耗费掉大量的计算能力还有可能产生噪音影响结果。

Mutual Information

所谓互信息是对于两个随机变量间相互依赖性的度量。对于两个离散随机变量 X, Y 的互信息可以定义为：

$I(X;Y) = \sum_{y\in Y}\sum_{x\in X} P(x,y)log\frac{P(x,y)}{P(x)P(y)}$

其中 P(x,y) 是 X, Y 的联合概率分布函数，P(x) 是 X 的边缘概率分布函数，P(y) 如是。

从公式看，互信息所度量的就是 X 和 Y 所包含的信息量，它就是在对当知道变量中任何一个，对于另一个不确定度减少的程度进行求值。

从公式可知，当 X 和 Y 相互独立时

$P(x, y) = P(x) * P(y)$
那么公式计算的值 I(X;Y) = 0
也就是说，当 X 和 Y 无关的时候，其互信息值为 0，X 不对 Y 提供任何信息，Y 也不对 X 提供任何信息。

用不确定性来说明就是，Y 的出现对于 X 的不确定性的减少量就是 X 和 Y 的互信息量，用公式表示就是：

$I(X;Y) = H(X) - H(X|Y)$
中其中，H(X) 就是 X 的熵，度量的是 X 的不确定性。
H(X|Y) 是 x, y 的条件熵，表述在已知 Y 的情况下 X 的不确定性。

把互信息应用在文本特征提取上面来，比较简单的一种做法就是来度量目标词 X 与文本类别 Y 的互信息，简单来说就是去度量目标 X 的存在给文本来别 Y 所带来的信息量，带入互信息公式即可求得一个依赖度分数，以高到低取 n 个来作为目标文本的特征词。

Introduction to Information Retrieval - Feature selection

TF-IDF

这个还是一个基于统计的计算方法，是一种经常被用在信息检索和文本挖掘的加权算法。它主用用来评估一个词对于一个文本的重要程度。
它其实是两个计算结果的运算结果
其中 TF 全称 Term Frequency，也就是词频。对于一个文本来说，一个词的词频就是指该词出现在该文本中的频率。主要用来表述其对于目标文本的内容描述能力

出 现 次 数 总 词 汇 数

$V(tf) = \frac{V(出现次数)}{V(总词汇数)}$

而 IDF 全称 Inverse Document Frequency，逆向文件频率。是一个词普遍重要性的度量，可以由总文件数目除包含该词的文本数再对其结果求对数得到。主要用来表述其对文本的区分能力

文 档 总 数 包 含 该 词 的 文 档 数

$V(idf) = log\frac{V(文档总数)}{V(包含该词的文档数)}$

最终得分取二者的乘积：

$V(tf-idf) = V(tf) * V(idf)$

可以看出，最终得分与目标词在目标文档中出现的次数成正比，与目标词在整个文档集中出现的次数成反比。

TF-IDF 认为对于区分文档最有意义的词是在文档中出现频率高，而在整个文档集的其它文档中出现频率少的词。其引入逆文本频率 idf 的目的其实是一种抑制噪声的加权，其目的主要是突出重要词而抑制次要词。
它的缺点也显而易见，它单纯认为文本频度小的词要比文本频度大的更有用，而这其实并不一定正确，另一方面 tf-idf 算法毫不关心单词出现的位置信息。但虽然如此，在计算单词权重的方面它依然是一个简单但却非常有效的方式。