码迷,mamicode.com
首页 > 其他好文 > 详细

数据挖掘——数据预处理

时间:2014-07-31 19:33:40      阅读:258      评论:0      收藏:0      [点我收藏+]

标签:blog   http   io   数据   2014   问题   数据库   log   

数据预处理(Data Preprocess):通过采用数据清理、数据集成与变换以及数据规约等方法对数据预先进行处理,处理后的数据用于数据挖掘。

在当前社会中,由于大数据、数据源不唯一等原因使得在真实数据库存放的数据存在噪声、缺失和不一致的问题。基于数据的信息挖掘在数据不能保证的情况下,挖掘得到的信息也很难具有说服力。(地基都没夯实就去建造高楼大厦谁敢住?)为了解决实际中遇到的这些问题,数据预处理技术顺势产生。常见的几种数据预处理的方式主要有:

1.数据清洗。主要用于去除噪声数据(包括错误数据和离群数据)以及解决数据不一致问题;

2.数据集成。通过数据整合可以将多个数据源的数据合并为一个统一数据集合。

3.数据变换。在数据变换中常用的操作例如标准化(normalization),可以提高数据挖掘的准确性。

4.数据规约。通过数据聚集、属性子集选择以及维度规约等方法对数据集合进行简化表示,但能够产生同样的(几乎同样的)分析结果。

bubuko.com,布布扣

有关数据预处理技术的内容将在接下来的章节逐渐展开。

 

数据挖掘——数据预处理,布布扣,bubuko.com

数据挖掘——数据预处理

标签:blog   http   io   数据   2014   问题   数据库   log   

原文地址:http://www.cnblogs.com/zpfzb2013/p/3881028.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!