在SN做仓库项目,根据自己负责的内容及SN的一些规范等,将这一阶段的模型工作进行一个思考和总结。
一、仓库字段、表等命名的规范
数据仓库建设目的,其中重要的一个方面就是建立统一的全局视图;表、字段等的规范命名就是仓库全局视图一个方面的体现。
在进行规范命名的时候,一般会根据《数据建模字段简写命名规范.xlsx》来进行。《规范》中有的词组,对应的表及字段按照《规范》进行命名;有的字段词组在《规...
分类:
其他好文 时间:
2015-08-09 22:37:59
阅读次数:
187
冰山查询――iceberg query
在数据仓库领域有一个概念叫Iceberg query,中文一般翻译为“冰山查询”。冰山查询在一个属性或属性集上计算一个聚集函数,以找出大于某个指定阈值的聚集值。
以销售数据为例,你想产生这样的一个顾客-商品对的列表,这些顾客购买商品的数量达到3件或更多。这可以用下面的冰山查询表示:
Select P.cust_ID, P.item_ID...
分类:
其他好文 时间:
2015-08-09 10:51:57
阅读次数:
178
一、度量、指标、指标器
度量和维度构成OLAP的主要概念,对于在事实表或者一个多维立方体里面存放的数值型的、连续的字段,就是度量。这符合上面的意思,有标准,一个度量字段肯定是统一单位,例如元、户数。如果一个度量字段,其中的度量值可能是欧元又有可能是美元,那这个度量没法汇总。
在OLAP中还有计算度量的说法,用一个总费用除以用户数,得到每户平均费用。但这究竟还算不算度量了呢?这已经不是原本意义上...
分类:
其他好文 时间:
2015-08-09 10:50:04
阅读次数:
126
1.Hive 官方网址:http://hive.apache.org/ Ø 什么是Hive?(***了解***) l Hive 是建立在 Hadoop上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL ),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据...
分类:
其他好文 时间:
2015-08-08 12:03:16
阅读次数:
296
数据仓库是目前主要的数据存储体系。数据仓库之增W.H.Inmon认为,数据仓库是指支持管理决策过程的、面向主题的、集成的、随时间而变的、持久的数据的集合。简单地说,一个数据仓库就一个自数据库的商业应用系统,该数据库的数据来自于其它的运作数据库,而不是来自于原始的输入。ODS(Operational ...
分类:
其他好文 时间:
2015-08-05 20:13:01
阅读次数:
172
Geenplum是一款基于postgresql开发的mpp数据库,适合于数据仓库数据存储,是对hadoop无法有效处理结构化数据的一个很好的补充。五年前曾经使用过greenplum,那时的版本还是3.6,现在已经更新到4.3.5了,有消息称今...
分类:
其他好文 时间:
2015-08-04 17:28:33
阅读次数:
323
kettle的转换ktr里有一个图元叫做合并记录可以把数据记录分为源和目的根据唯一标示 进行全量比对,...
分类:
其他好文 时间:
2015-08-01 15:43:45
阅读次数:
194
一、MySQL的主要适用场景1、Web网站系统2、日志记录系统3、数据仓库系统4、嵌入式系统二、MySQL架构图:三、MySQL存储引擎概述1)MyISAM存储引擎MyISAM存储引擎的表在数据库中,每一个表都被存放为三个以表名命名的物理文件。首先肯定会有任何存储引擎都不可缺少的存放表结构定义信息的...
分类:
数据库 时间:
2015-08-01 15:40:33
阅读次数:
205
[Author]: kwu ---
sqoop从关系库导出数据到hive,sqoop支持条件查询关系库中的数到hive数据仓库中,并且字段无须与hive表中的字段一致。...
分类:
其他好文 时间:
2015-07-31 20:27:38
阅读次数:
115
本文来着美团 :http://tech.meituan.com/hive-sql-to-mapreduce.htmlHive是基于Hadoop的一个数据仓库系统,在各大公司都有广泛的应用。美团数据仓库也是基于Hive搭建,每天执行近万次的Hive ETL计算流程,负责每天数百GB的数据存储和分析。H...
分类:
数据库 时间:
2015-07-30 22:59:55
阅读次数:
208