标签:需要 没有 使用 统计 提取 ima 指标 class col
数据质量评估
在做了近一个多月的数据质量评估方案工作,基本实现了从产出原始数据、数据清洗、入库有效数据等阶段,从对质量没有任何概念到实现基本的指标展示,也算是从设计到代码到展示的流程跑通,在一定程度已经能体现公司目前的数据质量
1.为什么做数据质量?
公司数据是从Excel挖掘出来的,不确定性与未知性,准确性没有评判的标准,提供给其他部门不能直接体现数据的好坏,做这件事是非常有必要2
2.从0开始思考怎么做数据质量
对于大多数公司的数据来说,数据格式较为固定,埋点数据或者业务数据都是进行专门的定义,比如商品id为数字,性别用0,1表示,但对于挖掘或者提取到的数据来说,字段的类型格式、长度及语义都可能存在差异,这就需要数据清洗重新规范格式。
3.数据质量计算及流程
离线流程:
实时:
5.思考指标与维度
6.实时的数据质量监控十分有必要,在清洗入仓时进行指标叠加统计监控,如果某些指标超出某些范围,直接前台报警,业务人员进行数据源排查、
实时方面在做全局去重及一些复杂指标是一个比较难处理的问题,因为全局去重会去历史数据进行碰撞与实时性冲突,目前想到的是晚上对前一天的入库数据进行离线跑批计算,
再就是使用redis结合bitmap进行去重(还未实现,大数据量可能会影响结果丢失掉数据)
标签:需要 没有 使用 统计 提取 ima 指标 class col
原文地址:https://www.cnblogs.com/hejunhong/p/12000216.html