码迷,mamicode.com
首页 > 其他好文 > 详细

异常值处理

时间:2016-08-05 22:52:01      阅读:889      评论:0      收藏:0      [点我收藏+]

标签:

异常值是模型优化的关键点之一,以前对异常值的了解只知道离均值远的就算是异常值,可是多远才算足够远呢,其实不同的模型有着不同的考量,基于模型所受的影响不同,所以所能忍受的异常值也不同。

1、异常值的类型

从二维的角度来说,其实异常值有三种类型,一是影响垂直方向Y的异常值,叫垂直特异性,对应探测该类异常的指标为标准化残差(学生化残差也可以);二是同时影响x和Y的异常值,对应探测该类异常的指标为COOK值,三是影响水平方向的X的异常值,叫杠杆值,对应探测该类型异常的指标为杠杆率。

技术分享技术分享

技术分享

 

 

 2、不同模型关注异常值的类型及处理方法

从x,y变量的角度区分不同模型对异常值的处理。一是对于没有Y的模型,只有一系列X,通过描述性分析,制作箱型图来探测异常值,此种情况下对于单变量的异常值一般不删除,仅仅是警惕即可。二是对于有Y的模型,对于y为线性的,如线性回归模型,该模型主要关注垂直特异性(具体原因与估计产生的标准差有关),因而主要是将标准化残差与+-2进行比较,超过的即为异常值;对于y为二分类变量,如logistic模型,三类异常值都要考虑,因而需要结合标准化残差、COOK值、杠杆率三个指标一起考虑,由此引出了偏离残差(界值为8)、皮尔森卡方(界值为100),此种情况异常值要删除。三是没有x、y之分的模型,x、y同等重要,通过聚类分析中的二维散点图探测异常值,如果是在数据挖掘中,异常值有些可能不要删除,而是重点检查,因为异常值代表着消费者行为中的小众行为,也许就是VIP行为。

 

异常值处理

标签:

原文地址:http://www.cnblogs.com/fionacai/p/5742808.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!