标签:
5W1H法来实现源数据的优化
做数据仓库项目的朋友都能感到数据质量和数据抽取展现的性能是整个数据仓库项目的重点。下面谈谈我在DW项目中处理源数据质量问题的5W1H方法。
5W : WHO ,WHAT,WHY,WHEN,WHERE
WHO:(谁来对源数据负责)
ETL抽取的数据各种各样,有些是按业务,有些是按区域,针对源数据的管理一定要在一开始就对源数据按规则分出对应的责任人,一般刚开始与业务负责人,DM确定好具体的数据项后,就可以按数据类别比如RMDB,FLATFILE等来确定具体的联系人,联系方式。
WHAT:(源数据的业务含义)
源数据的具体业务含义由对应的业务负责人来确定,这点对DM的设计很重要。
WHY:(为什么要抽取这个数据到DW)
WHEN: (数据的生命周期多久,多久需要更新,有无抽取时间限制)
WHERE:(源数据放在什么地方来抽取,是RMDB还是指定路径下的 FLATFILE,还是URL WEBSITE)一般为了保证源数据的抽取质量能先预处理到DB中的尽量先到DB中,这样的数据的处理信息会存到元数据知识库,便于确保数据质量。)
HOW: (如何抽到DW) 这里面主要考虑源数据存储的是否有序,如果前面5W做好了,这里面的源数据质量应该没问题,这一步主要考虑能否在缓冲区建立有效索引,对文件类型的源数据做基本清洗工作等。
标签:
原文地址:http://www.cnblogs.com/tdskee/p/5803702.html