标签:特征 生成 记录 开始 重复数据 变量 采集 指标 其他
*探索性数据分析:用于初步检验数据的质量,需计算各类数据特征指标。
本文框架:
好了,简单开始吧!若存在不足之处,还请指正说明,谢谢!
1.探索数据分布
1)功能:统计变量的数据分布;
2)指标:
2. 缺失率
1)功能:统计变量的缺失率;
2)指标:缺失率 = 未覆盖样本数 / 总样本数 × 100%;
3)业务理解:用于分析数据源的缺失率,以及未来的采集率趋势;如果缺失率持续升高,我们就认为这块数据不可用。
3. 重复值
1)功能:检验建模样本中是否有重复数据;
2)指标:按样本ID分组后,统计行数;
3)业务理解:观察相同订单的特征变量取值是否一致,若取值相同,只需简单去重;否则,说明生成逻辑有误,需检查SQL逻辑。
4. 单一值
1)功能:统计变量中某一固定值的占比;
2)指标:变量每个取值的出现次数;
3)业务理解:如果变量取值中,某一固定值占比很高,那么该变量区别度往往很低,通常单一值比例超过90%以上,建议删除该变量。
5. 其他数据质量检查
变量取值本身具有某些业务含义,我们需要结合业务来检验,并记录归档。例如:
注:未来在学习中,若有新内容再持续更新!
标签:特征 生成 记录 开始 重复数据 变量 采集 指标 其他
原文地址:https://www.cnblogs.com/iihcy/p/12378284.html