标签:特殊字符 第三章 客户 一半 特定 常用 偏差 脏数据 最大值
1.脏数据包括:缺失值,异常值,不一致的值,重复数据及含有特殊字符(#,¥,*)的数据。
2.异常值也称离群点,异常值分析也称离群点分析。
优势:1.对数据没要求(如服从某种特定的分布形式)
2.箱型图判断异常值的标准以四分位数和四分位距为基础,四分位数具有一定的鲁棒性:多达25%的数可以变得任意远而不会很大的扰动四分位数,所以异常值不能对这个标准施加影响。
标签:特殊字符 第三章 客户 一半 特定 常用 偏差 脏数据 最大值
原文地址:http://www.cnblogs.com/keye/p/7707855.html