码迷,mamicode.com
首页 >  
搜索关键字:hadoop生态圈    ( 121个结果
使用Ambari快速部署Hadoop大数据环境
前言 做大数据相关的后端开发工作一年多来,随着Hadoop社区的不断发展,也在不断尝试新的东西,本文着重来讲解下Ambari,这个新的Apache的项目,旨在让大家能够方便快速的配置和部署Hadoop生态圈相关的组件的环境,并提供维护和监控的功能. 作为新手,我讲讲我自己的学习经历,刚刚开始学习的时 ...
分类:其他好文   时间:2017-02-08 10:35:16    阅读次数:570
Parquet与ORC:高性能列式存储格式(收藏)
背景 随着大数据时代的到来,越来越多的数据流向了Hadoop生态圈,同时对于能够快速的从TB甚至PB级别的数据中获取有价值的数据对于一个产品和公司来说更加重要,在Hadoop生态圈的快速发展过程中,涌现了一批开源的数据分析引擎,例如Hive、Spark SQL、Impala、Presto等,同时也产 ...
分类:其他好文   时间:2016-12-21 20:30:38    阅读次数:322
基于Hadoop生态圈的数据仓库实践 —— ETL
使用Hive转换、装载数据 1. Hive简介 (1)Hive是什么 Hive是一个数据仓库软件,使用SQL读、写、管理分布式存储上的大数据集。它建立在Hadoop之上,具有以下功能和特点: 通过SQL方便地访问数据,适合执行ETL、报表、数据分析等数据仓库任务。 提供一种机制,给各种各样的数据格式 ...
分类:其他好文   时间:2016-12-17 13:52:53    阅读次数:284
分布式技术一周技术动态 2016.12.04
分布式系统实践 1. 列存储格式Parquet调研报告 http://dwz.cn/4HnU24 摘要: Apache Parquet是Hadoop生态圈中一种新型列式存储格式,它可以兼容Hadoop生态圈中大多数计算框架(Hadoop、Spark等),被多种查询引擎支持(Hive、Impala、D ...
分类:其他好文   时间:2016-12-04 09:40:28    阅读次数:149
Hadoop生态圈以及各组成部分的简介
1.Hadoop是什么? 适合大数据的分布式存储与计算平台 HDFS: Hadoop Distributed File System分布式文件系统 MapReduce:并行计算框架 2.Hadoop生态圈 ①HBase Google Bigtable的开源实现 列式数据库 可集群化 可以使用shel ...
分类:其他好文   时间:2016-11-20 07:09:00    阅读次数:156
编译Hadoop
Apache Hadoop 生态圈软件下载地址:http://archive.apache.org/dist/hadoop/hadoop下载地址 http://archive.apache.org/dist/hadoop/common 安装环境 虚拟机中的 CentOS 64位 需要安装软件: jd ...
分类:其他好文   时间:2016-10-13 01:56:05    阅读次数:203
2 weekend110的zookeeper的原理、特性、数据模型、节点、角色、顺序号、读写机制、保证、API接口、ACL、选举、 + 应用场景:统一命名服务、配置管理、集群管理、共享锁、队列管理
在hadoop生态圈里,很多地方都需zookeeper。 启动的时候,都是普通的server,但在启动过程中,通过一个特定的选举机制,选出一个leader。 只运行在一台服务器上,适合测试环境;Zookeeper 的启动脚本在 bin 目录下;在启动脚本之前,还有几个基本的配置项需要配置一下, ti ...
分类:Windows程序   时间:2016-09-24 12:06:59    阅读次数:599
Hadoop生态圈介绍
【问】hadoop在生产环境下综合考虑的的数据块副本数多少 【答】默认3个,一般也是用3个副本的比较多,如果有特殊需求的话,可以根据自己需求添加副本数。 1. hadoop 生态概...
分类:其他好文   时间:2016-09-21 13:15:34    阅读次数:217
[原创]Kudu:支持快速分析的新型Hadoop存储系统
Kudu是Cloudera开源的新型列式存储系统,是Apache Hadoop生态圈的新成员之一(incubating),专门为了对快速变化的数据进行快速的分析,填补了以往Hadoop存储层的空缺。本文主要对Kudu的动机、背景,以及架构进行简单介绍。 背景——功能上的空白 Hadoop生态系统有很 ...
分类:其他好文   时间:2016-08-31 18:29:43    阅读次数:435
基于hadoop生态圈的数据仓库实践 —— OLAP与数据可视化(六)
六、Hue数据可视化实例        本节用Impala、DB查询示例说明Hue的数据查询和可视化功能。1. Impala查询        在Impala OLAP实例一节中执行了一些查询,现在在...
分类:其他好文   时间:2016-08-31 17:16:46    阅读次数:221
121条   上一页 1 ... 5 6 7 8 9 ... 13 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!