[关闭]
@caoo 2019-07-29T01:00:48.000000Z 字数 2226 阅读 277

周志华-机器学习 第三章 线性模型

机器学习 线性 欧几里得 均方误差 最小二乘法

3.1 基本形式

线性模型(linear model)试图学得一个通过属性的线性组合来进行预测的函数,即:

一般用向量形式写成:

其中 $w=(w_{1};w_{2};...;w_{d}). w 和 b 学得之后,模型就得以确定。

如何确定呢?

显然,关键在于如何衡量。均方误差是回归任务中最常用的性能度量,因此我们可试图让均方误差最小化,即:

均方误差有非常好的几何意义,它对应了常用的欧几里得距离简称“欧氏距离”(Euclidean distance).
基于均方误差最小化来及逆行模型求解的方法称为 “最小二乘法”(least square method).

在线性回归中,最小二乘法就是试图找到一条直线,使所有样本到直线上的欧氏距离之和最小。
求解 使最小化的过程,成为线性回归模型的最小二乘“参数估计”(parameter estimation). 我们可将分别对求导,得到:

这里是关于的凸函数,当它关于的凸函数,当它关于 的导数均为零时,得到的最优解。对区间 [a,b] 上定义的函数 f,若它对区间中任意两点x_{1},x_{2}均有 f(\frac{x_{1}+x_{2}}{2}) \leq \frac{f(x_{1} + f(x_{2}))}{2} 则称f为区间[a,b]上的凸函数。
U 形曲线的函数如 f(x) = x^2,通常是凸函数,对实数集上的函数,可通过求二阶导数来判别:若二阶导数在区间上非负,则称为凸函数;若二阶导数在区间上恒大于0,则称为严格凸函数

假如输出标尺是在指数尺度上的变化,那将输出标尺的对数作为线性模型逼近的目标,即

这就是“对数线性回归”(log-linear regression)

更一般地,使用单调可微函数g(⋅),用

这样的模型称为“广义线性模型”(generalized linear model),函数g(⋅)g(⋅)称为“联系函数“(link function)。对数线性回归是广义线性模型在g(⋅)=ln(⋅)时的一个特例。

对数几率回归

  广义线性模型在做分类任务时,只需找一个单调可微函数将分类任务的真实标记yy与线性回归模型的预测值联系起来。
  考虑二分类任务时,输出标记为y={0,1},而线性回归模型产生的预测值是实值,所以要将实值zz转换为0/10/1值,最理想的是”单位阶跃函数“(unit-step function)。(若预测值为临界值0时则可以任意判别)。
  但问题是单位阶跃函数是不连续的函数,因此不能直接用作g−(⋅)。故有没有理想的替代函数,既有单位阶跃函数的特点,同时是单调可微的呢?对数几率函数(logistic function)就是这样一个常用的替代函数:

如下图:

  对数几率函数可以将值转化为一个接近0或1的值,并在附近变化很陡,将代数几率函数作为g(⋅)代入广义线性模型,有

该式可变化为

  若将视为为正例的可能性,则是其反例的可能性,两者的比值称为”几率“(pdds),反映了为正例的相对可能性,对几率取对数则得到”对数几率“(log odds):

  实际上是用线性回归模型的预测结果去逼近真实标记的对数几率,其对应模型称为”对数几率回归“(logistic regression)

线性判别分析(LDA)

是一种经典的监督线性降维方法:设法将训练样例投影到一条直线上,使同类样例的投影点尽可能接近,异类样例的投影点尽可能远离.对新样本分类时根据投影点的位置来确定类别.
多分类学习的分类器一般有以下三种策略:
一对一(OvO),N个类别产生N * (N - 1) / 2种分类器
一对多(OvR或称OvA),N个类别产生N - 1种分类器
多对多(MvM),如纠错输出码技术
解决类别不平衡问题的三种方法:
过采样法,增加正例使正负例数目接近,如SMOTE:思想是合成新的少数类样本,合成的策略是对每个少数类样本a,从它的最近邻中随机选一个样本b,然后在a、b之间的连线上随机选一点作为新合成的少数类样本.
欠采样法,减少负例使正负例数目接近,如EasyEnsemble:每次从大多数类中抽取和少数类数目差不多的重新组合,总共构成n个新的训练集,基于每个训练集训练出一个AdaBoost分类器(带阈值),最后结合之前训练分类器结果加权求和减去阈值确定最终分类类别.
再缩放法

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注