标签:提取 抽取 导致 方向 分析 扩展 数据库 不可 代码
一.数据仓库定义
数据仓库就是面向主题的、集成的、相对稳定的、随时间不断变化(不同时间)的数据集合,用以支持经营管理中的决策制定过程、数据仓库中的数据面向主题,与传统关系数据库面向应用相对应。
二.数据仓库与传统数据的区别
数据仓库是用于分析的数据库,传统的关系型数据库是面向业务的,为具体的业务提供支撑。
数据仓库是集成的,数据仓库的数据有来自于分散的操作型数据,将所需数据从原来的数据中抽取出进行加工与集成,统一与综合之后才能进入数据仓库.
数据仓库是不可更新的,数据仓库主要是为决策分析提供数据,所涉及的操作主要是数据的查询
随着时间的增长,数据仓库数据量会很大
与关系型数据库相比,数据仓库的设计允许冗余
为了更好的为业务决策服务,数据仓库的设计要求如下:
1.效率足够高,尽量的低延迟,隔天能看到历史的数据分析数据
2.数据质量,在ETL过程中,避免脏数据或者代码有误导致的数据不准确误导决策者
3.扩展性,考虑到随着时间的推移,以及业务的变动,数据量增大,数据仓库要合理建模,适度增加中间层,缓冲数据量增大带来的压力
4.根据决策者重点关心的方向,提取主题,排除无用的主题
标签:提取 抽取 导致 方向 分析 扩展 数据库 不可 代码
原文地址:https://www.cnblogs.com/playforever/p/9117141.html