@nearby
2018-05-18T14:15:29.000000Z
字数 1418
阅读 673
西瓜书 机器学习
线性回归的目的是,试图得到一个线性模型,使得预测值能尽可能准确地真实值。
注:输入属性如果是有序的离散型数据,可以量化成连续型数据;如果输入属性无序,则需要对其进行编码,如one-hot-encoding。
根据1中的线性模型的基本形式,为了达到线性回归的目的,需要最小化预测值与实际值的差别,求解一个合适的线性模型。
均方误差计算了预测值与实际值之间的欧氏距离,基于均方误差最小化进行模型求解的方法叫做“最小二乘法”。求解模型参数和,即最小化均方误差的过程叫做参数估计。
求解思路主要是将分别对和求导,令导数为0.
线性模型的变种——令模型预测值逼近实际值y的衍生物。
当构建实际模型有困难(非线性)时,可以考虑构造一个线性模型,去拟合实际点的投影或者经过某种变化后的点,如对数线性回归。
一般化,该种变化可以是任一单调可微的函数作用于实际样本值,这样的出来的模型成为广义线性模型,形式如下:
逻辑回归是一种分类器,本质是先得到样本的预测值,再用一个单调可微函数(此处为Sigmoid函数)将该预测值与分类类别联系起来。
逻辑回归模型的表达式如下:
优点:(1)直接对分类可能性建模,不需要事先假设数据分布;(2)可以预测得到正类或负类的概率值。
确定和的思路是“极大似然法”,具体推导过程无需记住。
逻辑回归是二元分类中的一种经典分类算法。之前看这部分的内容,没有细致考虑过怎么由线性回归跳转到线性分类,原来是用模型去逼近经过可微函数变化的原始值。
LDA思想:同类样本间投影点尽可能近(类内差距小),同时,不同类样本间投影点尽可能远(类间差距大)。最后,还要尽可能使二者同时满足条件,即类间散度与类内散度比值最大。
总共有N个类别,多分类需要拆解成多个二分类任务。
(1)One vs. One,一类对另一类
(2)One vs. Rest,一类对剩下所有
(3)Many vs. Many,随机将N个类别分成两拨。典型技术:ECOC,纠错输出码
正类样本少,负类样本多。比如医疗数据中,有病的群体数量少,没病的群体数量多。
三种思路:
(1)欠采样,把多于正类数量的负样本剔除,经典方法如EasyEnsemble。缺点:减少了样本量,可能丢失重要的信息。
(2)过采样,对正类样本进行重采样,即在正类样本附近增加“虚拟”的正样本,经典的方法如SMOTE。Python中有个使用smote思路的包,可以增加正类样本。
(3)再缩放——cost-sensitive learning,代价敏感学习,计算分错类的代价,再作为一个缩放因子代入模型中?