码迷,mamicode.com
首页 > 其他好文 > 详细

风控模型之探索性数据分析

时间:2020-02-28 18:33:00      阅读:89      评论:0      收藏:0      [点我收藏+]

标签:特征   生成   记录   开始   重复数据   变量   采集   指标   其他   

*探索性数据分析:用于初步检验数据的质量,需计算各类数据特征指标。

本文框架:

 

  • 探索数据分布(Exploratory Data Distribution,EDD)
  • 缺失率(Missing Rate)
  • 重复值(Duplicate Value)
  • 单一值(Unique Value)
  • 其他数据质量检查(Quality Check)

 

好了,简单开始吧!若存在不足之处,还请指正说明,谢谢!

1.探索数据分布

1)功能:统计变量的数据分布;

2)指标:

  • 对于连续型变量,包括:数量(count)、均值(mean)、标准差(std)、最小值(min)、分位数P25、P50、P75、最大值(max),其中最大值和最小值可用来观察异常值(outlier);
  • 对于离散型变量,包括:取值及出现次数(cnt)、占比(ratio)。

2. 缺失率

1)功能:统计变量的缺失率;

2)指标:缺失率 = 未覆盖样本数 / 总样本数 × 100%;

3)业务理解:用于分析数据源的缺失率,以及未来的采集率趋势;如果缺失率持续升高,我们就认为这块数据不可用。

3. 重复值

1)功能:检验建模样本中是否有重复数据;

2)指标:按样本ID分组后,统计行数;

3)业务理解:观察相同订单的特征变量取值是否一致,若取值相同,只需简单去重;否则,说明生成逻辑有误,需检查SQL逻辑。

4. 单一值

1)功能:统计变量中某一固定值的占比;

2)指标:变量每个取值的出现次数;

3)业务理解:如果变量取值中,某一固定值占比很高,那么该变量区别度往往很低,通常单一值比例超过90%以上,建议删除该变量。

5. 其他数据质量检查

变量取值本身具有某些业务含义,我们需要结合业务来检验,并记录归档。例如:

  • 特殊值归档说明:例如,-999是代表缺失,还是其他含义,需给出描述说明。
  • 0的业务逻辑确认:真实值为0?数据缺失?默认填充值?

注:未来在学习中,若有新内容再持续更新!

风控模型之探索性数据分析

标签:特征   生成   记录   开始   重复数据   变量   采集   指标   其他   

原文地址:https://www.cnblogs.com/iihcy/p/12378284.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!