码迷,mamicode.com
首页 > 其他好文 > 详细

数据质量监控

时间:2016-09-12 18:41:28      阅读:212      评论:0      收藏:0      [点我收藏+]

标签:

  1. 数据质量的定义
    • 从数据使用者的角度定义,高质量的数据应该是能充分满足用户使用要求的数据。
  2. 数据质量的标准
    • 完整性:数据记录是否缺失;字段内容是否缺失。
    • 一致性:字段内容是否满足应有的规则,比如电话号码,IP等;数据之间存在的逻辑关系是否满足,比如pv>=uv,百分比不能超过100%等。
    • 准确性:乱码;异常大或者异常小
    • 及时性:SLA
  3. 数据质量的评测流程
    • 数据质量需求分析
    • 确定评价对象和范围
    • 选取数据质量维度及评价标准
    • 确定质量测度及评价方法
    • 运用方法进行评价
    • 结果分析和评级
    • 质量结果和报告
  4. 数据质量的评估方法
    • 基本概念
      • 模型M=<D,I,R,W ,E,S>
      • D(Dataset)是需要进行评估的数据集
      • I(Indicator)数据集D上需要进行评估的指标,如完整性、准确性、一致性等
      • R(Rule)与评估指标相对应的规则
      • W(Weight)赋予规则R的权值(大于0的整数),描述了该规则在所有规则中所占的比重。
      • E(Expectation)对规则R给出的期望值(介于0到100之间的实数),是在评估之前对该规则所期望得到的结果。
      • S(reSult)规则R对应的最终结果(介于0到100之间的实数),是在检测该规则后所得的结果。
          • 技术分享

             

    • 构造技术
      • 构造数据质量评估模型要经过4个步骤:确定数据集评估应用视图,选择评估指标,制定规则集,计算规则结果得分。

      • 下面将结合具体的实例来说明如何构造数据质量评估模型。

        • 技术分享
        • 1、确定数据集评估应用视图

          在进行数据质量评估时,首先要提出数据质量评估的需求,要确定哪些数据是用户感兴趣的(包括数据库、数据库中的数据集和数据集上的字段),对它们建立对应的用户视图。

          2、选择评估指标

          对于每个给定的数据集,选择所需要的评估指标: 对于Customer,选择完整性和有效性两个指标。

          3、制定规则集

          根据选择的评估指标,制定数据质量评估规则,并确定它们相应的权值和期望值。对于Customer,针对完整性和有效性指标制定以下规则:

          (1)ID 非空(权值:5,期望值:90):完整性

          (2)ID长度为18位(权值:10,期望值:90):准确性

          (3)Sex值为 F 或 M (权值:10,期望值:98):有效性

          4、计算规则结果得分

          对于规则集中的每条规则R,检查数据集上的数据实例,计算满足R的数据元组的百分比,得到R对应的结果S。计算数据元组总数的百分比,就是最终结果:假设它们的结果分别为95,90,90。

        • 技术分享

 

 

参考

http://www.chinaz.com/web/2012/1112/281738.shtml

http://blog.sina.com.cn/s/blog_66239fdb0100z9yf.html

数据质量监控

标签:

原文地址:http://www.cnblogs.com/benchen/p/5852963.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!