码迷,mamicode.com
首页 >  
搜索关键字:生态圈    ( 479个结果
基于Hadoop生态圈的数据仓库实践 —— 进阶技术(四)
四、角色扮演维度        当一个事实表多次引用一个维度表时会用到角色扮演维度。例如,一个销售订单有一个是订单日期,还有一个交货日期,这时就需要引用日期维度表两次。        本节将说明两类角色扮演维度的实现,分别是表别名和数据库视图。这两种都使用了Hive的功能。表别名是在SQL语句里引用维度表多次,每次引用都赋予维度表一个别名。而数据库视图,则是按照事实表需要引用维度表的次数,建立相同...
分类:其他好文   时间:2016-07-19 10:04:32    阅读次数:180
基于Hadoop生态圈的数据仓库实践 —— 进阶技术(一)
一、增加列         数据仓库最常碰到的扩展是给一个已经存在的维度表和事实表添加列。本节说明如何在客户维度表和销售订单事实表上添加列,并在新列上应用SCD2,以及对定时装载脚本所做的修改。假设需要在客户维度中增加送货地址属性,并在销售订单事实表中增加数量度量值。        先看一下增加列时模式发生的变化。        修改后源数据库模式如下图所示。        修改后DW数据库模式如...
分类:其他好文   时间:2016-07-14 15:44:46    阅读次数:231
Hadoop 生态系统
1.概述 最近收到一些同学和朋友的邮件,说能不能整理一下 Hadoop 生态圈的相关内容,然后分享一些,我觉得这是一个不错的提议,于是,花了一些业余时间整理了 Hadoop 的生态系统,并将其进行了归纳总结,进而将其以表格的形式进行了罗列。涉及的内容有以下几点: 分布式文件系统 分布式编程模型 No ...
分类:其他好文   时间:2016-07-13 19:36:56    阅读次数:155
基于Hadoop生态圈的数据仓库实践 —— ETL(三)
三、使用Oozie定期自动执行ETL1. Oozie简介(1)Oozie是什么        Oozie是一个管理Hadoop作业、可伸缩、可扩展、可靠的工作流调度系统,其工作流作业是由一系列动作构成的有向无环图(DAGs),协调器作业是按时间频率周期性触发的Oozie工作流作业。Oozie支持的作业类型有Java map-reduce、Streaming map-reduce、Pig、 Hive...
分类:其他好文   时间:2016-07-11 17:14:40    阅读次数:237
Parquet与ORC:高性能列式存储格式
背景随着大数据时代的到来,越来越多的数据流向了Hadoop生态圈,同时对于能够快速的从TB甚至PB级别的数据中获取有价值的数据对于一个产品和公司来说更加重要,在Hadoop生态圈的快速发展过程中,涌现了一批开源的数据分析引擎,例如Hive、Spark SQL、Impala、Presto等,同时也产生了多个高性能的列式存储格式,例如RCFile、ORC、Parquet等,本文主要从实现的角度上对比分析...
分类:其他好文   时间:2016-07-10 18:54:37    阅读次数:650
Hadoop生态圈介绍及入门(转)
问题导读 1.Hadoop生态圈介绍了哪些组件,分别都是什么? 2.大数据与Hadoop是什么关系? 本章主要内容: 理解大数据的挑战 了解Hadoop生态圈 了解Hadoop发行版 使用基于Hadoop的企业级应用 你可能听别人说过,我们生活在“大数据”的环境中。技术驱动着当今世界的发展,计算能力 ...
分类:其他好文   时间:2016-07-09 14:46:21    阅读次数:558
航母计划背后:百度一步一步突破搜索推广依赖
近日,百度旗下百度文学业务引入完美集团的战略投资,这是百度实施航母计划以来的又一重要动作。我们可以看到的是,整个百度集团正在进行大刀阔斧地改革。事实上,刘旷认为百度航母计划的目的正是:搭建全产业链生态。 提到生态,可能很多人都会想到今天乐视的生态圈。乐视通过把乐视体育、乐视影业、乐视电商、乐视云计算 ...
分类:其他好文   时间:2016-07-06 13:10:51    阅读次数:212
基于Hadoop生态圈的数据仓库实践 —— ETL(一)
一、使用Sqoop抽取数据 1. Sqoop简介         Sqoop是一个在Hadoop与结构化数据存储(如关系数据库)之间高效传输大批量数据的工具。它在2012年3月被成功孵化,现在已是Apache的顶级项目。Sqoop有Sqoop1和Sqoop2两代,Sqoop1最后的稳定版本是1.4.6,Sqoop2最后版本是1.99.6。需要注意的是,1.99.6与1.4.6并不兼容,而且截止...
分类:其他好文   时间:2016-07-03 19:46:17    阅读次数:305
hadoop生态圈点滴
HDFS:分布式文件系统 MapReduce:分布式计算框架 Sqoop:数据库ETL工具 Flume:日志收集工具 Mahout:数据挖掘库 Hive:数据仓库 Pig:数据流处理 HBase:实时分布式数据库 Zookeeper:分布式协作服务 ...
分类:其他好文   时间:2016-07-01 20:14:23    阅读次数:166
【转】js入门
英文原文 翻译原文 如果你以前有编程经验,但是一名前端JavaScript开发的初学者,那么一系列的术语和工具容易引起混淆。我们不会纠缠于细节的讨论,而是会纵览当前的“JavaScript生态圈”。这应该足够你找准方向,开启前端开发之旅。 关键术语显示为粗体。如果你想跳到可以工作的样板代码库,那么我 ...
分类:Web程序   时间:2016-06-30 21:22:00    阅读次数:255
479条   上一页 1 ... 28 29 30 31 32 ... 48 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!