一个Hive查询生成多个map reduce job,一个map reduce job又有map,reduce,spill,shuffle,sort等多个阶段,所以针对hive查询的优化可以大致分为针对MR中单个步骤的优化(其中又会有细分),针对MR全局的优化,...
分类:
数据库 时间:
2014-08-31 03:58:10
阅读次数:
496
做数据仓库的头两年,使用高配置单机 + MySQL的方式来实现所有的计算(包括数据的ETL,以及报表计算。没有OLAP)。用过MySQL自带的MYISAM和列存储引擎Infobright。这篇文章总结了自己和团队在那段时间碰到的一些常...
分类:
数据库 时间:
2014-08-30 02:28:49
阅读次数:
365
最近收获:
如果一个公司有针对简单数据的基于关键字(key)的存储和检索的需求,他们可以选择来自系统领域的key-value存储系统。作为选择,他们也可以采用依靠应用程序级的“分片”,通过人工的(哈希)分割他们的数据仓库,通过多个开源的Mysql或者PostGres数据库实例来检索他们的数据。...
分类:
其他好文 时间:
2014-08-29 18:17:58
阅读次数:
219
CDC的全称是Change Data Capture,主要用在数据仓库中,对原数据库的数据进行抽取、传输到数据仓库中,用于进行分析和统计。CDC有同步模式和异步模式: 1. CDC同步模式: 通过trigger来实现。 2. CDC异步模式: ...
分类:
其他好文 时间:
2014-08-29 16:27:48
阅读次数:
262
1.?????CDC简介 1.1.????????CDC是一种数据增量处理技术 ???在构建数据仓库系统的ETL过程中,增量数据的抽取是一个非常关键的环节.对解决方案一般有两点要求: l??准确性,能够将业务系统中的数据...
分类:
数据库 时间:
2014-08-29 14:47:38
阅读次数:
389
笔者在利用数据方面作了多方面探索,有以下三点深刻体会:一是数据分析不在于用什么工具,而在于能不能从数据中得到有用的信息并影响企业的业务与管理。很多CIO一听到数据分析,马上就联想到数据仓库、数据挖掘等昂贵的BI软件,在实践中,相比较来说,使用更专业的BI工具效率会..
分类:
其他好文 时间:
2014-08-22 18:14:00
阅读次数:
266
TDW 是腾讯最大的离线数据处理平台。本文主要从需求、挑战、方案和未来计划等方面,介绍了TDW在建设单个大规模集群中采取的 JobTracker 分散化和 NameNode 高可用两个优化方案。TDW(Tencent distributed Data Warehouse,腾讯分布式数据仓库)基于开源...
分类:
其他好文 时间:
2014-08-21 16:39:04
阅读次数:
252
……接上一章节,继续扣款(收费)报告。16、小张同学把下面的脚本复制到记事本中,保存并退出记事本。该脚本主要实现按正确的顺序执行所有所需的数据仓库作业17、返回ServiceManagerShell中,小张执行.\RunDWJobs.ps1这个脚本再启动所需的每一个数据仓库作业,该过程需要一定的..
分类:
其他好文 时间:
2014-08-21 15:14:05
阅读次数:
215