码迷,mamicode.com
首页 >  
搜索关键字:hadoop生态圈    ( 121个结果
基于Hadoop生态圈的数据仓库实践 —— ETL(三)
三、使用Oozie定期自动执行ETL1. Oozie简介(1)Oozie是什么        Oozie是一个管理Hadoop作业、可伸缩、可扩展、可靠的工作流调度系统,其工作流作业是由一系列动作构成的有向无环图(DAGs),协调器作业是按时间频率周期性触发的Oozie工作流作业。Oozie支持的作业类型有Java map-reduce、Streaming map-reduce、Pig、 Hive...
分类:其他好文   时间:2016-07-11 17:14:40    阅读次数:237
Parquet与ORC:高性能列式存储格式
背景随着大数据时代的到来,越来越多的数据流向了Hadoop生态圈,同时对于能够快速的从TB甚至PB级别的数据中获取有价值的数据对于一个产品和公司来说更加重要,在Hadoop生态圈的快速发展过程中,涌现了一批开源的数据分析引擎,例如Hive、Spark SQL、Impala、Presto等,同时也产生了多个高性能的列式存储格式,例如RCFile、ORC、Parquet等,本文主要从实现的角度上对比分析...
分类:其他好文   时间:2016-07-10 18:54:37    阅读次数:650
Hadoop生态圈介绍及入门(转)
问题导读 1.Hadoop生态圈介绍了哪些组件,分别都是什么? 2.大数据与Hadoop是什么关系? 本章主要内容: 理解大数据的挑战 了解Hadoop生态圈 了解Hadoop发行版 使用基于Hadoop的企业级应用 你可能听别人说过,我们生活在“大数据”的环境中。技术驱动着当今世界的发展,计算能力 ...
分类:其他好文   时间:2016-07-09 14:46:21    阅读次数:558
基于Hadoop生态圈的数据仓库实践 —— ETL(一)
一、使用Sqoop抽取数据 1. Sqoop简介         Sqoop是一个在Hadoop与结构化数据存储(如关系数据库)之间高效传输大批量数据的工具。它在2012年3月被成功孵化,现在已是Apache的顶级项目。Sqoop有Sqoop1和Sqoop2两代,Sqoop1最后的稳定版本是1.4.6,Sqoop2最后版本是1.99.6。需要注意的是,1.99.6与1.4.6并不兼容,而且截止...
分类:其他好文   时间:2016-07-03 19:46:17    阅读次数:305
hadoop生态圈点滴
HDFS:分布式文件系统 MapReduce:分布式计算框架 Sqoop:数据库ETL工具 Flume:日志收集工具 Mahout:数据挖掘库 Hive:数据仓库 Pig:数据流处理 HBase:实时分布式数据库 Zookeeper:分布式协作服务 ...
分类:其他好文   时间:2016-07-01 20:14:23    阅读次数:166
基于Hadoop生态圈的数据仓库实践 —— 环境搭建(三)
三、建立数据仓库示例模型         Hadoop及其相关服务安装配置好后,下面用一个小而完整的示例说明多维模型及其相关ETL技术在Hadoop上的具体实现。 1. 设计ERD         操作型系统是一个销售订单系统,初始时只有产品、客户、订单三个表,ERD如下图所示。         多维数据仓库包含有一个销售订单事实表,产品、客户、订单、日期四个维度表,ERD如下...
分类:其他好文   时间:2016-06-29 19:11:04    阅读次数:432
基于Hadoop生态圈的数据仓库实践 —— 环境搭建(二)
二、安装Hadoop及其所需的服务 1. CDH安装概述 CDH的全称是Cloudera's Distribution Including Apache Hadoop,是Cloudera公司的Hadoop分发版本。有三种方式安装CDH: . Path A - 通过Cloudera Manager自动安装 . Path B - 使用Cloudera Manager Parcels或Packa...
分类:其他好文   时间:2016-06-28 13:11:08    阅读次数:184
基于Hadoop生态圈的数据仓库实践 —— 概述(二)
二、在Hadoop上实现数据仓库 (大部分翻译自《Big Data Warehousing》)         数据仓库技术出现很长时间了,现在为什么要从传统数据库工具转为使用Hadoop呢?答案就是最引人关注的流行词汇 —— 大数据。对许多组织来说,传统关系数据库已经不能够经济地处理他们所面临的数据量。而Hadoop生态圈就是为了能够廉价处理大量数据的目的应运而生的。下面看看大数据是怎么定义...
分类:其他好文   时间:2016-06-25 09:42:51    阅读次数:247
从零开始2016----大数据学习
工作这么多年了,从零开始学习 大数据,现在把提纲保存一下。 一、Hadoop入门,了解什么是Hadoop1、Hadoop产生背景2、Hadoop在大数据、云计算中的位置和关系3、国内外Hadoop应用案例介绍4、国内Hadoop的就业情况分析及课程大纲介绍5、分布式系统概述6、Hadoop生态圈以及 ...
分类:其他好文   时间:2016-06-23 16:08:41    阅读次数:255
魅族大数据上云之路
首先我先介绍一下魅族大数据上云的背景,即我们为什么要上云? 在开始之前我们默认今天参与直播的各位同学对Hadoop相关技术和docker都有一定的了解,另外以下提到Hadoop是泛指目前魅族大数据使用的Hadoop生态圈技术,资源除特别说明则泛指存储资源、计算资源和网络资源的总和。...
分类:其他好文   时间:2016-05-18 18:35:41    阅读次数:243
121条   上一页 1 ... 7 8 9 10 11 ... 13 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!