码迷,mamicode.com
首页 > 其他好文 > 详细

第三章数据探索

时间:2017-10-22 11:03:05      阅读:148      评论:0      收藏:0      [点我收藏+]

标签:特殊字符   第三章   客户   一半   特定   常用   偏差   脏数据   最大值   

1.脏数据包括:缺失值,异常值,不一致的值,重复数据及含有特殊字符(#,¥,*)的数据。

2.异常值也称离群点,异常值分析也称离群点分析。

  • 简单统计量分析:最常用的统计量是最大值和最小值。(如客户年龄最大值199,存在异常)
  • 3σ原则:如果数据服从正态分布,在3σ原则下,测定值中与平均值的偏差超过3倍标准差的值就是异常值。P(|x-μ|>3σ)≤0.003,这个概率极小。
  • 箱型图分析:箱型图提供识别异常值的标准:异常值通常被定义为小于QL-1.5IQR或大于Qu+1.5IQR的值。QL称为下四分位数,表示全部观察值中有四分之一的数据比它小;Qu称为上四分位数,表示全部观察值中有四分之一的数据比它大;IQR称为四分位距,是Qu-QL,其中包含了全部观察值的一半。

   优势:1.对数据没要求(如服从某种特定的分布形式)

      2.箱型图判断异常值的标准以四分位数和四分位距为基础,四分位数具有一定的鲁棒性:多达25%的数可以变得任意远而不会很大的扰动四分位数,所以异常值不能对这个标准施加影响。

第三章数据探索

标签:特殊字符   第三章   客户   一半   特定   常用   偏差   脏数据   最大值   

原文地址:http://www.cnblogs.com/keye/p/7707855.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!