@nearby 2018-05-18T14:15:29.000000Z 字数 1418 阅读 673

第三章线性模型

西瓜书 机器学习

1.基本形式

$f(x)=w^Tx+b$
其中，

$x$ 是由d个属性构成的特征向量，b是一个常数。

$w$ 可表示为各属性（特征）在预测中的重要性，权重越大，说明该特征越重要。

2.线性回归

线性回归的目的是，试图得到一个线性模型，使得预测值能尽可能准确地真实值。
注：输入属性如果是有序的离散型数据，可以量化成连续型数据；如果输入属性无序，则需要对其进行编码，如one-hot-encoding。
根据1中的线性模型的基本形式，为了达到线性回归的目的，需要最小化预测值与实际值的差别，求解一个合适的线性模型。

均方误差计算了预测值与实际值之间的欧氏距离，基于均方误差最小化进行模型求解的方法叫做“最小二乘法”。求解模型参数 $w$ 和 $b$ ，即最小化均方误差的过程叫做参数估计。
$E=\sum_{i=1}^{m}(y_i-wx_i=b)^2$
求解思路主要是将 $E$ 分别对 $w$ 和 $b$ 求导，令导数为0.

广义线性模型

线性模型的变种——令模型预测值逼近实际值y的衍生物。
当构建实际模型有困难（非线性）时，可以考虑构造一个线性模型，去拟合实际点的投影或者经过某种变化后的点，如对数线性回归。
一般化，该种变化可以是任一单调可微的函数作用于实际样本值，这样的出来的模型成为广义线性模型，形式如下：

$y=g^{-1}(w^Tx+b)$

$y$ 与

$w^Tx+b$ 存在某种映射关系。

3.对数几率回归（Logistic Regression）

逻辑回归是一种分类器，本质是先得到样本的预测值，再用一个单调可微函数（此处为Sigmoid函数）将该预测值与分类类别联系起来。
逻辑回归模型的表达式如下：

$y=\frac{1}{1+e^{-(w^Tx+b)}}$
对上式两边求对数，得到

$ln\frac{y}{1-y}=w^Tx+b$ ，将y作为预测样本为正类的可能性，1-y则为负类的可能性。二者的比值成为“几率”，用线性回归模型的结果去逼近实际值的对数几率，因此，逻辑回归也称为“对数几率回归”。

优点：（1）直接对分类可能性建模，不需要事先假设数据分布；（2）可以预测得到正类或负类的概率值。
确定 $w$ 和 $b$ 的思路是“极大似然法”，具体推导过程无需记住。

逻辑回归是二元分类中的一种经典分类算法。之前看这部分的内容，没有细致考虑过怎么由线性回归跳转到线性分类，原来是用模型去逼近经过可微函数变化的原始值。

4.线性判别分析（LDA）

LDA思想：同类样本间投影点尽可能近（类内差距小），同时，不同类样本间投影点尽可能远（类间差距大）。最后，还要尽可能使二者同时满足条件，即类间散度与类内散度比值最大。

5.多分类学习

总共有N个类别，多分类需要拆解成多个二分类任务。
（1）One vs. One，一类对另一类
（2）One vs. Rest，一类对剩下所有
（3）Many vs. Many，随机将N个类别分成两拨。典型技术：ECOC，纠错输出码

6.类别不平衡问题

正类样本少，负类样本多。比如医疗数据中，有病的群体数量少，没病的群体数量多。
三种思路：
（1）欠采样，把多于正类数量的负样本剔除，经典方法如EasyEnsemble。缺点：减少了样本量，可能丢失重要的信息。
（2）过采样，对正类样本进行重采样，即在正类样本附近增加“虚拟”的正样本，经典的方法如SMOTE。Python中有个使用smote思路的包，可以增加正类样本。
（3）再缩放——cost-sensitive learning，代价敏感学习，计算分错类的代价，再作为一个缩放因子代入模型中？