（四）数据清洗主要工作

时间：2020-06-27 19:56:43 阅读：253 评论：0 收藏：0 [点我收藏+]

标签：比例 express 一个 exp type val 必须很多 indicator

一. 数据清洗主要工作

• 噪声(Noise)消除

• 噪声包含错误值(类别型字段)及离群值(数值型字段)

• 噪声使探勘结果有相当大的偏差，必须将噪声移除或将其做适当的处理

　　2. 空值(Missing Value)填补

• 人工填补
• 自动填补

二.噪声如何处理

噪声侦测方法

• 针对类别型字段，检视其分布 (找错误值)
• 针对数值型字段，检视其分布 (找离群值)

- 平均值法

• 平均值（+-）3 * 标准差

　　　　　　　　　　　　(1个标准差: 68%; 2个标准差: 95%; 3个标准差: 99.7%)

- 四分位数法

• IQR = Q3 – Q1

• Q1 – 1.5 * IQR ~ Q3 + 1.5 * IQR

　　2.噪声处理方法

• 错误值(类别型字段)

视为空值

• 离群值(数值型字段)

1. 视为空值
2. 天花板/地板法(盖帽法) (NumericCleaner)
3. 函数校正法 (AddExpression)：取log10, log2, ln等

三、数据空值处理

直接忽略法：当数据有遗缺值时，则将整笔数据删除

• 处理数据遗缺最简单的方法　　
• 搜集的数据量很多，而遗缺数据只占一小部分时，便可直接删除

• 遗缺数据占整个字段所有数据的比例过大时(>50%)，便可直接删除

• 进行分类建模时，若数据的分类标记(Class Label)为空值，这笔数据因无法被正确分类，便可直接删除

　　缺点

• 数据遗缺比例很可观时，会造成大量数据流失

　　2 转换成指示变量(Indicator Variable)

当字段有遗缺值时，则将整个字段转换成指示变量(Indicator Variable)

• 处理数据遗缺的特殊方法

• 遗缺数据占整个字段所有数据的比例过大时(>50%)，便可使用此法

• 使用此法的理论基础为空值也是行为的另一种呈现

3.人工填补

　　当某会员数据的生日字段有遗缺，可打电话询问该会员，以取得其生日并加以填补

　　• 了解数据遗缺原因，采用适当的值填补

1. 性别可用身分证字号来补　　
2. 一些比例型的字段

　　　　• 缺点

　　　　　　当数据遗缺较多时，耗时且人力负担沉重

4.自动填补

（1）类别字段

• 填入一个通用的常数值
　　•如填入“未知/Unknown”，成为一个新的类别
• 填入该字段的众数(Mode)
　　• 缺点是不够客观
　　• 可用分群的方式，分群求众数
• 更精确作法是利用模型求出较可能的值来填入
　　• 把填遗缺值的问题当作是分类的问题

（2）数值字段

• 填入一个通用的常数
　　• 如填入0(但需Check其意义)
• 填入该字段的整体平均值(Mean)
　　• 不会对统计结果造成太大的影响
　　• 缺点是不够客观
• 可用分群的方式，分群求平均值
　　• 更精确作法是利用模型求出较可能的值来填入
　　• 把填遗缺值的问题当作是预测的问题

（四）数据清洗主要工作

标签：比例 express 一个 exp type val 必须很多 indicator

原文地址：https://www.cnblogs.com/liyuewdsgame/p/13199257.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行