码迷,mamicode.com
首页 > 其他好文 > 详细

数据预处理

时间:2015-12-29 12:30:45      阅读:141      评论:0      收藏:0      [点我收藏+]

标签:

方法:

l  数据清理(Clearing)

l  数据集成(Integration)

l  数据变换(Transformation)

l  数据归约/降维(Reduction)

l  数据增维(expand)

l  特征提取(generate)

 

(1)数据清理 -- 空缺值处理

       a)使用最可能的值填充空缺值,比如可以用最小二乘回归模型或判定树归纳等确定空缺值。这类方法依靠现有的数据信息来推测空缺值,使空缺值有更大的机会保持与其他属性之间的联系。

       b)用一个全局常量替换空缺值,使用属性的平均值填充空缺值或将所有元组按某些属性分类,然后用同一类中属性的平均值填充空缺值。如果空缺值很多,这些方法可能误导挖掘结果。

(2)数据清理 -- 噪声数据处理

       噪声是一个测量变量中的随机错误或偏差,包括错误的值或偏离期望的孤立点值。常用分箱、回归、计算机检查和人工检查结合、聚类等方法进行噪音处理。

               技术分享

(3)数据变化

       a)数据平滑 -- 分箱(按中值/平均值/边值)

       b)数据概念化

       c)规范化

                 技术分享

(4)数据归约(离散化)

       常用维归约、数据压缩、数值归约等方法实现。

       PCA降维,principal component analysis,即主成成分分析

 

数据预处理

标签:

原文地址:http://www.cnblogs.com/sweetyu/p/5085268.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!