为什么要预处理数据?
如何预防脏数据?
1. 处理数据缺失:
2. 处理数据重复:
3. 处理数据错误:不一致
噪声数据的处理
1. 分箱:
把待处理的数据按照一定的规则放进一些箱子中,考察每一个箱子中的数据,采用某种方法分别对各个箱子中的数据进行处理。
需要确定的主要问题:分箱方法,即如何分箱;数据平滑方法,即如何对每个箱子中的数据进行平滑处理。
分箱方法:
平滑处理:
2. 回归
发现两个相关的变量间的变化模式,通过使数据适合一个函数来平滑数据,即利用拟合函数对数据进行平滑。
回归方法:线性方法;非线性方法。
3. 聚类
将物理的或抽象对象集合分组为不同簇,找出并清除那些落在簇之外的值(鼓励点),这些鼓励点被视为噪声。
通过聚类分析发现异常数据:相似或向邻近的数据聚合在一起形成了各个聚类集合,而那些位于这些聚类集合之外的数据对象,被认为是异常数据。
特点:直接形成簇并对簇进行描述,不需要任何先验知识。
原文地址:https://www.cnblogs.com/macyzhang/p/9782193.html