码迷,mamicode.com
首页 > 其他好文 > 详细

数据挖掘——(二)数据预处理

时间:2016-10-13 14:01:57      阅读:151      评论:0      收藏:0      [点我收藏+]

标签:

数据预处理

1. 数据质量的三个要素:准确性、完整性、一致性

2. 数据预处理的主要任务:

  数据清理、数据集成、数据归约、数据变换

 

一. 数据清理

数据清理主要:填补缺失的值,光滑噪声同时识别离群点,并纠正数据的不一致性。

通常是一个两步的迭代过程,包括偏差检测和数据变换

技术分享

 

注意:在某些情况下,缺失值并不意味着数据有误。在理想情况下,每个属性应当有一个或多个关于控制条件的规则。这些规则可以说明是否允许空值,并且/或者说明这样的空值应当如何处理或转换。

二. 数据集成

数据集成将来自多个数据源的数据整合成一致的数据存储。语义异种性的解决、元数据、相关性分析、元组重复检测、数据冲突检测等有助于数据的顺利集成。

技术分享

 

三、数据归约

将数据归约表示,比起原数据集小得多,但是保证原始数据的完整性

技术分享

四. 数据变换与数据离散化

       技术分享

 

                                                                                                                              

 

数据挖掘——(二)数据预处理

标签:

原文地址:http://www.cnblogs.com/lesleysbw/p/5955859.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!