最近,由于工作的需要,学习了基于Hadoop的一个数据仓库工具hive。遇到并解决了一些问题,但是有个select语句的细微差别值得注意。 首先来看两条hql语句: SELECT * FROM MY_TABLE where dt=2014031205 limit 10 SELECT ID,NAM.....
分类:
其他好文 时间:
2014-06-28 23:54:20
阅读次数:
400
是数据仓库中记录数据的一个方式她是记录数据的明细信息。流水表对于表每修改都会记录用于反映实际记录变更而拉链表根据拉链粒度同实际上相当于快照只过做了优化去除了部分变记录而已通过拉链表方便还原出拉链时点客户记录而流水表虽也能做得效率行或者需要人工参与提问者评价两者间最重要的区别在于,在首次添加信息时拉链...
分类:
其他好文 时间:
2014-06-20 17:50:01
阅读次数:
166
拉链表是针对数据仓库设计中表存储数据的方式而定义的,顾名思义,所谓拉链,就是记录历史。记录一个事物从开始,一直到当前状态的所有变化的信息。优点:为了节省数据库的空间用处:记录一个事物从开始到现在所有的状态信息。1采集原系统的全量数据到表new1.2从历史表中获取昨日全量数据到表new2.3从new1...
分类:
其他好文 时间:
2014-06-20 17:48:39
阅读次数:
216
下面内容摘自互联网并作了整理。名词:BI(Business Intelligence):商业智能,DW(Data Warehouse):数据仓库,详见正文Q1部分。OLTP(On-Line Transaction Processing):联机事务处理也称为面向交易的处理系统,其基本特征是顾客的原始数...
分类:
其他好文 时间:
2014-06-17 00:38:42
阅读次数:
337
本文简要总结以下两个问题,旨在快速理解“数据仓库”
1、什么是“数据仓库”?
2、“数据仓库”与“数据库”的区别?
下面做详细阐述:
1、什么是“数据仓库”?
“一个数据仓库通常是一个面向主题的、集成的、与时间相关且不可修改的(可以添加)数据集合,它用于对管理决策过程的支持。”
此句话包含几个关键点:面向主题的、集成的、与时间相关的、不可修改的,具体含义欢迎留言交流。
2、数据仓...
分类:
数据库 时间:
2014-06-16 19:05:04
阅读次数:
259
优点和使用场景SQLServer内存中列存储索引通过使用基于列的数据存储和基于列的查询处理来存储和管理数据。列存储索引适合于主要执行大容量加载和只读查询的数据仓库工作负荷。与传统面向行的存储方式相比,使用列存储索引存档可最多提高10倍查询性能,与使用非压缩数据大小相比..
分类:
数据库 时间:
2014-06-10 22:38:46
阅读次数:
356