数据预处理

时间：2015-01-31 15:59:47 阅读：238 评论：0 收藏：0 [点我收藏+]

标签：

数据预处理章节，整理于《数据挖掘·概念与技术》第三章，如有错误，请指正，谢谢~

1、概述

　　数据清理可以去除数据中的噪声，纠正不一致。数据集成将数据由多个数据源合并成一个一致的数据进行存储，如数据仓库。数据规约可以通过如聚集，删除冗余特征或聚类降低数据的规模。数据变换（如规约化）可以把数据压缩到较小的区间，如0.0到1.0。这可以提高设计距离度量数据挖掘算法的准确率和效率。

　　数据质量涉及到许多因素，包括准确性、完整性、一致性、时效性、可信性和可解释性。

　　在分析中使用多个数据源的数据那就是数据集成，数据集是巨大的，要降低数据集的规模，而又不损害数据挖掘的结果--数据规约(data reduction)；维规约：用数据编码方案，得到原始数据的简化或“压缩”表示。包括数据压缩技术(例如小波变换和主成分分析)，以及属性子集选择（例如去掉不相关的属性）和属性构造（例如从原来数据集导出更有用的小属性集）；数据规约：使用参数模型（例如回归和对数线性模型）或非参数模型（例如直方图、聚类、抽样或数据聚集）用较小的表示取代数据

　　离散化和概念分层产生也可能是有用的。

　　规范化、数据离散化和概念分层产生都是某种形式的数据变换（data transformation）

2、数据清理

　　现实的数据一般是不完整的、有噪声的和不一致的。数据清理试图填充缺失值、光滑噪声并识别离群点、纠正数据中的不一致

2.1缺失值：

　　针对缺失值有很多种方法忽略改元组，人工填写，用一个全局变量填充，使用属性中心度量(均值或中位数)填充，使用与给定元组属同一类的样本属性均值或中位数代替，使用最可能的值填充缺失值。

　　貌似方法"使用最可能的值填充缺失值"最靠谱：可以用回归、使用贝叶斯形式化方法的基于推理的工具或决策树归纳确定。

2.2噪声数据：

　　“噪声”(noise)是被测量的变量的随机误差或方差

　　数据光滑技术：分箱(binning)、回归(regression)、离群点分析(outlier analysis)

　　回归：用一个函数拟合数据来光滑数据，线性回归找出拟合两个属性的最佳直线。多元线性回归是线性回归的扩充，属性多于2个，数据将拟合到一个多维曲面

　　有些分类方法有内置的数据光滑机制(如神经网络)

2.3数据清理作为一个过程

　　第一步是偏差检测(discrepancy detection),例如，找出均值，中位数，众数。数据是对称的还是倾斜的？值域是什么？所有的值是否都落于期望区间？每个属性的标准差是多少？远离给定属性均值超过两个标准差的值可能标记为可能的离群点。属性之间是否存在已知的依赖关系？

　　还可以根据唯一性规则、连续性规则和空值规则考查数据。

3、数据集成

　3.1实体识别问题：

　　数据集成是将来自多个数据源的数据合并，并存放在一个一致的数据存储中。考虑多个信息源的现实世界的等价实体如何相互“匹配”？如一个customer_id字段与另一个数据库中的cust_number是否相同属性。要考虑每个属性的元数据，包括名字、含义、数据类型、和取值范围，以及处理空白，空值和null的规则。还可以进行变换数据，如性别有的用B和G代表，还有的用1和2代表

　3.2冗余和相关性分析

　　冗余是常见的，比如一个属性（年收入）可以由其他属性导出（月收入），那么就是冗余的。

　　冗余可以被相关分析检测到。对于标称数据可以用技术分享 (卡方)检验；对于数值型数据可以用相关系数(correlation coefficient)和协方差(covariance)检验，这两个都是评估一个属性的值如何随另一个属性值变化。

　　(1)标称数据的卡方相关检验：

　　有两个属性A和B，属性A有c个不同值，a1,a2……ac；属性B有r个不同值，b1,b2,……br；A和B两个属性描述的数据元组可以用一个相依表显示，A属性为列，B属性为行，构成的每个元组(Ai，Bj)；则卡方的表达式为：

　　技术分享 Oij是联合事件(Ai，Bj)的实际观测频度，Eij则是(Ai，Bj)的期望频度。其中n是数据元组的个数，count(A=ai)表示A上具有ai值的所有个数，同理。

　　卡方统计检验假设A和B都是独立的，检验基于显著水平，具有自由度(r-1)X(c-1)，如果可以拒绝改假设，则我们可以说A和B是统计相关的。

　　例子1：性别与是否爱阅读小说的卡方检验

	男	女	合计
小说	250(90)	200(360)	450
非小说	50(210)	1000(840)	1050
合计	300	1200	1500

其中括号内的数是期望频率，期望频率是根据两个属性的数据分布用eij式子计算得来，如(男，小说)的期望频率是e11 = count(男)Xcount(小说) / n = 300X450/1500 = 90

注意：任意行，期望频率的和必须等于改行总观测频率，并且任意列的期望频率和也必须等于该列的总观测频率。利用卡方计算公式有

=284.44+121.90+71.11+30.48 = 507.93

对于2X2的表，自由度为(2-1)X(2-1)=1，自由度为1，在0.001置信水平下，拒绝假设的值为10.828，我们计算值大于该值，因此我们拒绝两个属性独立的假设。

　　例2：医院分别用化疗和化疗结合放射结合两种方法，如图

组别	有效	无效	合计	有效率（%）
化疗组	19	24	43	44.2
化疗加放疗组	34	10	44	77.3
合计	53	34	87	60.9

分别计算期望频度，总数n是87，第一行第一列：count(有效)Xcount(化疗组)/n=53*43/87=26.2；第一行第二列：count(化疗)Xcount(无效)/n=43*34/87=16.8；第二行第一列：count(化疗加放疗)Xcount(有效)/n=44*53/87=26.8;第二行第二列：44*34/87=17.2

组别	有效	无效	合计
化疗组	19（26.2）	24（16.8）	43
化疗加放疗组	34（26.8）	10（17.2）	44
合计	53	34	87

则卡方的值为：(19-26.2)^2/26.2 + (34-26.8)^2/26.8 +(24-16.8)^2/16.8 + (10-17.2)^2/17.2 = 10.01

在查表之前应知本题自由度。按x2检验的自由度v=（行数-1）（列数-1），则该题的自由度v=（2-1）（2-1）=1，查x2界值表（附表20-1），找到x20.001（1）=6.63，原地方是否差错了？而本题x2=10.01即x2＞x20.001（1），P＜0.01，差异有高度统计学意义，按α=0.05水准，拒绝假设独立，可以认为采用化疗加放疗治疗卵巢癌的疗效比单用化疗佳。

　　(2)数值数据的协方差与相关系数：

　　在概率论与统计学中，协方差和方差是具有类似的度量，协方差是方差在多维随机变量的扩展，即刻画随机变量在其中心位置附近散步程度的数字特征。

　　方差：Var(X)=E(X - EX)^2 ; 另EX=a,则 Var(X) = E(X^2) - 2aE(X) +a^2 = E(X^2) - (EX)^2

　　考虑两个数值属性A，B和多次观测的集合{(a1, b1), ……(an,bn)},协方差定义为：　　　　　　　　　　技术分享