[关闭]
@evilking 2017-10-15T02:33:03.000000Z 字数 1874 阅读 3677

回归分析篇

异常值与强影响点

在回归分析的应用中,数据时常包含一些异常的或极端的观测值,这些观测值与其他数据点远远分开,可能引起较大的残差,极大地影响回归拟合的效果。在一元回归的情况下,可以通过散点图或残差图很方便的看出来,但是在多元回归的情况下,要识别这些异常点就比较困难了

异常值氛围两种情况,一种是关于因变量 异常,另一种是关于自变量 异常


关于因变量 的异常值

在残差分析中认为,超过 的残差为异常值。

由于普通残差 的方差 不等,用 作判断会带来一定的麻烦

类似于一元线性回归,在多元线性回归中,同样可以引入标准化残差 和学生化残差 的概念,以改进普通残差的性质

标准化残差:


学生化残差:
其中,为帽子矩阵 的主对角线元素。

标准化残差使残差具有可比性, 的相应观测值即判定为异常值,这简化了判定工作,但是没有解决方程不等的问题。

学生化残差进一步解决了方差不等的问题,比标准化残差又有所改进。

但是当观察数据中存在关于 的异常观察值时,普通残差、标准化残差、学生化残差都不再适用;这是由于异常值把回归线拉向自身,使异常值本身的残差减小,而其余观测值的残差增大,这时回归标准差 也会增大,因而用 "" 准则不能正确分别出异常值。解决这个问题的方法是改用删除残差

删除残差的构造思想是: 在计算第 个观测值的残差时,用删除掉这第 个观测值的其余 个观测值拟合回归方程,计算出第 个观测值的删除拟合值 ,这个删除拟合值与第 个使无关,不受第 个值是否为异常值的影响,由此定义第 个观测值的删除残差为

删除残差 较普通残差更能如实反映第 个观测值的异常性。可以证明

进一步,我们可以给出第 个观测值的删除学生化残差,记为

的观测值即判定为异常值.


关于自变量 的异常值

,其中 为帽子矩阵中主对角线的第 个元素,它是调节 方差大小的杠杆

较大的杠杆值的残差偏小,这是因为大杠杆值的观测点远离样本中心,能够把回归方程拉向自身,因而把杠杆值大的样本点称为强影响点。

强影响点并不一定是 值的异常值点,因而强影响点并不总会对回归方程造成不良影响。但是强影响点对回归效果通常有较强的影响,需要引起关注。这是因为一下两点原因:

  1. 在实际问题中,因变量与自变量的线性关系只是在一定的范围内成立,强影响点远离样本中心,因变量与自变量之间可能已不再是线性函数关系,因而在选择回归函数的形式时,要侧重于强影响点

  2. 即使线性回归形式成立,但是强影响点远离样本中心,能够把回归方程拉向自身,使回归方程产生偏移

由于强影响点并不总是 的异常值点,因而不能单纯根据杠杆值 的大小判断强影响点是否异常。为此,我们引入库克距离,用来判断强影响点是否为 的异常值点

库克距离为

库克距离反应了杠杆值 与残差 大小的一个综合效应

因为 ,则杠杆值 的平均值为

这样,一个杠杆值 如果大于 2 倍或 3 倍的 就认为是大的。

对于库克距离大小标准的判定比较复杂,一个粗略的标准是: 当 时,认为不是异常值点;当 时,认为是异常值点.


R程序演示

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注