数据预处理

时间：2020-05-03 16:39:32 阅读：136 评论：0 收藏：0 [点我收藏+]

数据预处理的主要内容包括数据清洗、数据集成、数据变换、数据规约。

数据清洗主要是删除原始数据集中的无关数据、重复数据，平滑噪声数据，筛选掉与挖掘主题无关的数据，处理缺失值和异常值。

数据质量分析是检查数据中是否存在一些脏数据，例如：缺失值、异常值和不一致的值等。

数据缺失有很多原因，例如数据无法获得，人为原因没有填写，数据采集设备故障等等，那么缺失值对建模过程多少会有一些影响，目前对于缺失，大致有三种处理方式：1、删除缺失值的特征 2、对缺失值进行插补 3、不处理。

数据插补的方法：均值/中位数/众数插补、使用固定值、最近邻插补、回归方法、插值法。

异常值指的是样本中的个别值，其数值明显偏离其他的观测数据，异常值也称为离群值，可以从下面几个方面判断：1、简单的统计量分析，例如年龄，客户的年龄填的是200岁，这种就是很明显的异常值，2、3σ原则，如果数据服从正太分布，在3σ原则下，异常值被定义为一组测定值中与平均值的偏差超过3倍标准差的值。因为数值分布在（μ-3σ,μ+3σ)中的概率为0.9973，分布在外面的概率<=0.003,数据极个别小概率事件，3、箱线图分析，异常值通常被定义为Q_L-1.5IQR或者Q_U+1.5IQR的值。Q_L称为下四分位数，Q_U称为上四分位数，IQR称为四分位数间距，是上四分位数与下四分位数之差。

异常值处理：删除含有异常值的记录、视为缺失值(按照缺失值填充)、平均值修正、不处理。

技术图片