码迷,mamicode.com
首页 > 其他好文 > 详细

如何评估数据质量?

时间:2019-12-07 01:04:35      阅读:506      评论:0      收藏:0      [点我收藏+]

标签:需要   没有   使用   统计   提取   ima   指标   class   col   

   数据质量评估

在做了近一个多月的数据质量评估方案工作,基本实现了从产出原始数据、数据清洗、入库有效数据等阶段,从对质量没有任何概念到实现基本的指标展示,也算是从设计到代码到展示的流程跑通,在一定程度已经能体现公司目前的数据质量

1.为什么做数据质量?

公司数据是从Excel挖掘出来的,不确定性与未知性,准确性没有评判的标准,提供给其他部门不能直接体现数据的好坏,做这件事是非常有必要2

2.从0开始思考怎么做数据质量

  对于大多数公司的数据来说,数据格式较为固定,埋点数据或者业务数据都是进行专门的定义,比如商品id为数字,性别用0,1表示,但对于挖掘或者提取到的数据来说,字段的类型格式、长度及语义都可能存在差异,这就需要数据清洗重新规范格式。

3.数据质量计算及流程

离线流程:

技术图片

 

实时:

技术图片

 

 5.思考指标与维度

技术图片

 

 技术图片

 

 6.实时的数据质量监控十分有必要,在清洗入仓时进行指标叠加统计监控,如果某些指标超出某些范围,直接前台报警,业务人员进行数据源排查、

实时方面在做全局去重及一些复杂指标是一个比较难处理的问题,因为全局去重会去历史数据进行碰撞与实时性冲突,目前想到的是晚上对前一天的入库数据进行离线跑批计算,

再就是使用redis结合bitmap进行去重(还未实现,大数据量可能会影响结果丢失掉数据)

 

 

如何评估数据质量?

标签:需要   没有   使用   统计   提取   ima   指标   class   col   

原文地址:https://www.cnblogs.com/hejunhong/p/12000216.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!