[关闭]
@nearby 2018-05-18T14:15:29.000000Z 字数 1418 阅读 673

第三章 线性模型

西瓜书 机器学习


1.基本形式


其中,是由d个属性构成的特征向量,b是一个常数。可表示为各属性(特征)在预测中的重要性,权重越大,说明该特征越重要。

2.线性回归

线性回归的目的是,试图得到一个线性模型,使得预测值能尽可能准确地真实值。
注:输入属性如果是有序的离散型数据,可以量化成连续型数据;如果输入属性无序,则需要对其进行编码,如one-hot-encoding。
根据1中的线性模型的基本形式,为了达到线性回归的目的,需要最小化预测值与实际值的差别,求解一个合适的线性模型。

均方误差计算了预测值与实际值之间的欧氏距离,基于均方误差最小化进行模型求解的方法叫做“最小二乘法”。求解模型参数,即最小化均方误差的过程叫做参数估计。

求解思路主要是将分别对求导,令导数为0.

广义线性模型

线性模型的变种——令模型预测值逼近实际值y的衍生物。
当构建实际模型有困难(非线性)时,可以考虑构造一个线性模型,去拟合实际点的投影或者经过某种变化后的点,如对数线性回归。
一般化,该种变化可以是任一单调可微的函数作用于实际样本值,这样的出来的模型成为广义线性模型,形式如下:


存在某种映射关系。

3.对数几率回归(Logistic Regression)

逻辑回归是一种分类器,本质是先得到样本的预测值,再用一个单调可微函数(此处为Sigmoid函数)将该预测值与分类类别联系起来。
逻辑回归模型的表达式如下:


对上式两边求对数,得到,将y作为预测样本为正类的可能性,1-y则为负类的可能性。二者的比值成为“几率”,用线性回归模型的结果去逼近实际值的对数几率,因此,逻辑回归也称为“对数几率回归”。

优点:(1)直接对分类可能性建模,不需要事先假设数据分布;(2)可以预测得到正类或负类的概率值。
确定的思路是“极大似然法”,具体推导过程无需记住。

逻辑回归是二元分类中的一种经典分类算法。之前看这部分的内容,没有细致考虑过怎么由线性回归跳转到线性分类,原来是用模型去逼近经过可微函数变化的原始值。

4.线性判别分析(LDA)

image.png
LDA思想:同类样本间投影点尽可能近(类内差距小),同时,不同类样本间投影点尽可能远(类间差距大)。最后,还要尽可能使二者同时满足条件,即类间散度与类内散度比值最大。

5.多分类学习

总共有N个类别,多分类需要拆解成多个二分类任务。
(1)One vs. One,一类对另一类
(2)One vs. Rest,一类对剩下所有
(3)Many vs. Many,随机将N个类别分成两拨。典型技术:ECOC,纠错输出码

6.类别不平衡问题

正类样本少,负类样本多。比如医疗数据中,有病的群体数量少,没病的群体数量多。
三种思路:
(1)欠采样,把多于正类数量的负样本剔除,经典方法如EasyEnsemble。缺点:减少了样本量,可能丢失重要的信息。
(2)过采样,对正类样本进行重采样,即在正类样本附近增加“虚拟”的正样本,经典的方法如SMOTE。Python中有个使用smote思路的包,可以增加正类样本。
(3)再缩放——cost-sensitive learning,代价敏感学习,计算分错类的代价,再作为一个缩放因子代入模型中?

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注