标签:比例 express 一个 exp type val 必须 很多 indicator
一. 数据清洗主要工作
• 噪声包含错误值(类别型字段)及离群值(数值型字段)
• 噪声使探勘结果有相当大的偏差,必须将噪声移除或将其做适当的处理
2. 空值(Missing Value)填补
• 人工填补
• 自动填补
二.噪声如何处理
• 针对类别型字段,检视其分布 (找错误值)
• 针对数值型字段,检视其分布 (找离群值)
• 平均值 (+-)3 * 标准差
(1个标准差: 68%; 2个标准差: 95%; 3个标准差: 99.7%)
• IQR = Q3 – Q1
• Q1 – 1.5 * IQR ~ Q3 + 1.5 * IQR
2.噪声处理方法
• 错误值(类别型字段)
视为空值
• 离群值(数值型字段)
三、数据空值处理
• 处理数据遗缺最简单的方法
• 搜集的数据量很多,而遗缺数据只占一小部分时,便可直接删除
• 遗缺数据占整个字段所有数据的比例过大时(>50%),便可直接删除
• 进行分类建模时,若数据的分类标记(Class Label)为空值,这笔数据因无法被正确分类,便可直接删除
缺点
• 数据遗缺比例很可观时,会造成大量数据流失
2 转换成指示变量(Indicator Variable)
当字段有遗缺值时,则将整个字段转换成指示变量(Indicator Variable)
• 处理数据遗缺的特殊方法
• 遗缺数据占整个字段所有数据的比例过大时(>50%),便可使用此法
• 使用此法的理论基础为空值也是行为的另一种呈现
3.人工填补
当某会员数据的生日字段有遗缺,可打电话询问该会员,以取得其生日并加以填补
• 了解数据遗缺原因,采用适当的值填补
• 缺点
当数据遗缺较多时,耗时且人力负担沉重
4.自动填补
(1)类别字段
• 填入一个通用的常数值
•如填入“未知/Unknown”,成为一个新的类别
• 填入该字段的众数(Mode)
• 缺点是不够客观
• 可用分群的方式,分群求众数
• 更精确作法是利用模型求出较可能的值来填入
• 把填遗缺值的问题当作是分类的问题
(2)数值字段
• 填入一个通用的常数
• 如填入0(但需Check其意义)
• 填入该字段的整体平均值(Mean)
• 不会对统计结果造成太大的影响
• 缺点是不够客观
• 可用分群的方式,分群求平均值
• 更精确作法是利用模型求出较可能的值来填入
• 把填遗缺值的问题当作是预测的问题
标签:比例 express 一个 exp type val 必须 很多 indicator
原文地址:https://www.cnblogs.com/liyuewdsgame/p/13199257.html