码迷,mamicode.com
首页 > 其他好文 > 详细

抽取、转换和装载介绍(五)抽取数据

时间:2016-04-21 20:17:39      阅读:147      评论:0      收藏:0      [点我收藏+]

标签:

抽取和提交数据虽然也很重要,但是只是传输和装载数据而已。

数据的清洗和归一化是ETL系统为数据增值的步骤,实际上改变了数据。

子系统4——数据清洗系统

主要用于修正脏数据,同时又希望数据仓库提供该数据的准确描述。

数据清洗的目标之一是提供一个用于数据清洗的综合架构,捕捉与数据质量相关的事件,同时在数据仓库中对数据质量进行度量并最终加以控制。

这一子系统的目标应当包括:

  • 对数据质量问题的早期诊断和鉴别分类(早期诊断)
  • 让源系统的集成工作提供更优质的数据(更优数据)
  • 具有为ETL过程中遇到的数据错误提供特定描述的功能(错误描述)
  • 具有能够随着时间推移捕捉所有数据质量错误和度量数据质量的框架(时间延续)
  • 对最终的质量可信度进行度量的附加功能(可信度评价)

子系统5——错误事件模式

记录质量筛选所抛出的每一个错误事件。

子系统6——审计维装配器

ETL系统在后台为每个事实表装配一个审计维(啥叫事实表,啥叫审计维)。

子系统7——重复数据删除系统

数据可能会来源于多个方面,有的信息可能会需要由多个业务信息和外部源中的信息合并而成。

存活(survivorship)是将一些列匹配的记录整合为同一的像(image),将匹配结果中质量最高的列整合称为一个一致行。

子系统8——一致化系统

一致化包括将维度中的某些或所有列和数据仓库其他部分的另一个相同或者相似的维度中的列进行对准所需的所有步骤。

比如发票和客户服务信息的源系统很可能来自于不同的客户数据库,因此这两个来源很难保证一致性。

一致化包括之前提到的一致性维度和一致性事实。

为了达到这个目的,需要对来自多个系统的数据进行整合和集成,使数据在结构上是一致的、不重复的,并且滤去了无效数据。

一致化过程的大部分工作是前面所阐述的删除重复结构、匹配和存活处理。

抽取、转换和装载介绍(五)抽取数据

标签:

原文地址:http://www.cnblogs.com/tuhooo/p/5418357.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!