三、使用Oozie定期自动执行ETL1. Oozie简介(1)Oozie是什么 Oozie是一个管理Hadoop作业、可伸缩、可扩展、可靠的工作流调度系统,其工作流作业是由一系列动作构成的有向无环图(DAGs),协调器作业是按时间频率周期性触发的Oozie工作流作业。Oozie支持的作业类型有Java map-reduce、Streaming map-reduce、Pig、 Hive...
分类:
其他好文 时间:
2016-07-11 17:14:40
阅读次数:
237
背景随着大数据时代的到来,越来越多的数据流向了Hadoop生态圈,同时对于能够快速的从TB甚至PB级别的数据中获取有价值的数据对于一个产品和公司来说更加重要,在Hadoop生态圈的快速发展过程中,涌现了一批开源的数据分析引擎,例如Hive、Spark SQL、Impala、Presto等,同时也产生了多个高性能的列式存储格式,例如RCFile、ORC、Parquet等,本文主要从实现的角度上对比分析...
分类:
其他好文 时间:
2016-07-10 18:54:37
阅读次数:
650
问题导读 1.Hadoop生态圈介绍了哪些组件,分别都是什么? 2.大数据与Hadoop是什么关系? 本章主要内容: 理解大数据的挑战 了解Hadoop生态圈 了解Hadoop发行版 使用基于Hadoop的企业级应用 你可能听别人说过,我们生活在“大数据”的环境中。技术驱动着当今世界的发展,计算能力 ...
分类:
其他好文 时间:
2016-07-09 14:46:21
阅读次数:
558
一、使用Sqoop抽取数据
1. Sqoop简介
Sqoop是一个在Hadoop与结构化数据存储(如关系数据库)之间高效传输大批量数据的工具。它在2012年3月被成功孵化,现在已是Apache的顶级项目。Sqoop有Sqoop1和Sqoop2两代,Sqoop1最后的稳定版本是1.4.6,Sqoop2最后版本是1.99.6。需要注意的是,1.99.6与1.4.6并不兼容,而且截止...
分类:
其他好文 时间:
2016-07-03 19:46:17
阅读次数:
305
HDFS:分布式文件系统 MapReduce:分布式计算框架 Sqoop:数据库ETL工具 Flume:日志收集工具 Mahout:数据挖掘库 Hive:数据仓库 Pig:数据流处理 HBase:实时分布式数据库 Zookeeper:分布式协作服务 ...
分类:
其他好文 时间:
2016-07-01 20:14:23
阅读次数:
166
三、建立数据仓库示例模型
Hadoop及其相关服务安装配置好后,下面用一个小而完整的示例说明多维模型及其相关ETL技术在Hadoop上的具体实现。
1. 设计ERD
操作型系统是一个销售订单系统,初始时只有产品、客户、订单三个表,ERD如下图所示。
多维数据仓库包含有一个销售订单事实表,产品、客户、订单、日期四个维度表,ERD如下...
分类:
其他好文 时间:
2016-06-29 19:11:04
阅读次数:
432
二、安装Hadoop及其所需的服务
1. CDH安装概述
CDH的全称是Cloudera's Distribution Including Apache Hadoop,是Cloudera公司的Hadoop分发版本。有三种方式安装CDH:
. Path A - 通过Cloudera Manager自动安装
. Path B - 使用Cloudera Manager Parcels或Packa...
分类:
其他好文 时间:
2016-06-28 13:11:08
阅读次数:
184
二、在Hadoop上实现数据仓库
(大部分翻译自《Big Data Warehousing》)
数据仓库技术出现很长时间了,现在为什么要从传统数据库工具转为使用Hadoop呢?答案就是最引人关注的流行词汇 —— 大数据。对许多组织来说,传统关系数据库已经不能够经济地处理他们所面临的数据量。而Hadoop生态圈就是为了能够廉价处理大量数据的目的应运而生的。下面看看大数据是怎么定义...
分类:
其他好文 时间:
2016-06-25 09:42:51
阅读次数:
247
工作这么多年了,从零开始学习 大数据,现在把提纲保存一下。 一、Hadoop入门,了解什么是Hadoop1、Hadoop产生背景2、Hadoop在大数据、云计算中的位置和关系3、国内外Hadoop应用案例介绍4、国内Hadoop的就业情况分析及课程大纲介绍5、分布式系统概述6、Hadoop生态圈以及 ...
分类:
其他好文 时间:
2016-06-23 16:08:41
阅读次数:
255
首先我先介绍一下魅族大数据上云的背景,即我们为什么要上云?
在开始之前我们默认今天参与直播的各位同学对Hadoop相关技术和docker都有一定的了解,另外以下提到Hadoop是泛指目前魅族大数据使用的Hadoop生态圈技术,资源除特别说明则泛指存储资源、计算资源和网络资源的总和。...
分类:
其他好文 时间:
2016-05-18 18:35:41
阅读次数:
243