码迷,mamicode.com
首页 > 其他好文 > 详细

大数据平台粗略架构和数仓设计步骤

时间:2018-04-13 11:32:08      阅读:1879      评论:0      收藏:0      [点我收藏+]

标签:com   不同   信息   表数   表数据   代理   str   存在   产生   

 

大数据平台粗略架构

 

 技术分享图片

数据仓库设计步骤

1、确定主题

主题与业务密切相关,所以设计数仓之前应当充分了解业务有哪些方面的需求,据此确定主题

2、确定量度

在确定了主题以后,我们将考虑要分析的技术指标,诸如年销售额之类。量度是要统计的指标,必须事先选 
择恰当,基于不同的量度将直接产生不同的决策结果。

3、确定数据粒度

考虑到量度的聚合程度不同,我们将采用“最小粒度原则”,即将量度的粒度设置到最小。例如如果知道某些数据细分到天就好了,那么设置其粒度到天;但是如果不确定的话,就将粒度设置为最小,即毫秒级别的。

4、确定维度

设计各个维度的主键、层次、层级,尽量减少冗余。

5、创建事实表

事实表中将存在维度代理键和各量度,而不应该存在描述性信息,即符合“瘦高原则”,即要求事实表数据条数尽量多(粒度最小),而描述性信息尽量少。

 

大数据平台粗略架构和数仓设计步骤

标签:com   不同   信息   表数   表数据   代理   str   存在   产生   

原文地址:https://www.cnblogs.com/yulu080808/p/8817997.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!