前言 做大数据相关的后端开发工作一年多来,随着Hadoop社区的不断发展,也在不断尝试新的东西,本文着重来讲解下Ambari,这个新的Apache的项目,旨在让大家能够方便快速的配置和部署Hadoop生态圈相关的组件的环境,并提供维护和监控的功能. 作为新手,我讲讲我自己的学习经历,刚刚开始学习的时 ...
分类:
其他好文 时间:
2017-02-08 10:35:16
阅读次数:
570
背景 随着大数据时代的到来,越来越多的数据流向了Hadoop生态圈,同时对于能够快速的从TB甚至PB级别的数据中获取有价值的数据对于一个产品和公司来说更加重要,在Hadoop生态圈的快速发展过程中,涌现了一批开源的数据分析引擎,例如Hive、Spark SQL、Impala、Presto等,同时也产 ...
分类:
其他好文 时间:
2016-12-21 20:30:38
阅读次数:
322
使用Hive转换、装载数据 1. Hive简介 (1)Hive是什么 Hive是一个数据仓库软件,使用SQL读、写、管理分布式存储上的大数据集。它建立在Hadoop之上,具有以下功能和特点: 通过SQL方便地访问数据,适合执行ETL、报表、数据分析等数据仓库任务。 提供一种机制,给各种各样的数据格式 ...
分类:
其他好文 时间:
2016-12-17 13:52:53
阅读次数:
284
分布式系统实践 1. 列存储格式Parquet调研报告 http://dwz.cn/4HnU24 摘要: Apache Parquet是Hadoop生态圈中一种新型列式存储格式,它可以兼容Hadoop生态圈中大多数计算框架(Hadoop、Spark等),被多种查询引擎支持(Hive、Impala、D ...
分类:
其他好文 时间:
2016-12-04 09:40:28
阅读次数:
149
1.Hadoop是什么? 适合大数据的分布式存储与计算平台 HDFS: Hadoop Distributed File System分布式文件系统 MapReduce:并行计算框架 2.Hadoop生态圈 ①HBase Google Bigtable的开源实现 列式数据库 可集群化 可以使用shel ...
分类:
其他好文 时间:
2016-11-20 07:09:00
阅读次数:
156
Apache Hadoop 生态圈软件下载地址:http://archive.apache.org/dist/hadoop/hadoop下载地址 http://archive.apache.org/dist/hadoop/common 安装环境 虚拟机中的 CentOS 64位 需要安装软件: jd ...
分类:
其他好文 时间:
2016-10-13 01:56:05
阅读次数:
203
在hadoop生态圈里,很多地方都需zookeeper。 启动的时候,都是普通的server,但在启动过程中,通过一个特定的选举机制,选出一个leader。 只运行在一台服务器上,适合测试环境;Zookeeper 的启动脚本在 bin 目录下;在启动脚本之前,还有几个基本的配置项需要配置一下, ti ...
【问】hadoop在生产环境下综合考虑的的数据块副本数多少
【答】默认3个,一般也是用3个副本的比较多,如果有特殊需求的话,可以根据自己需求添加副本数。
1. hadoop 生态概...
分类:
其他好文 时间:
2016-09-21 13:15:34
阅读次数:
217
Kudu是Cloudera开源的新型列式存储系统,是Apache Hadoop生态圈的新成员之一(incubating),专门为了对快速变化的数据进行快速的分析,填补了以往Hadoop存储层的空缺。本文主要对Kudu的动机、背景,以及架构进行简单介绍。 背景——功能上的空白 Hadoop生态系统有很 ...
分类:
其他好文 时间:
2016-08-31 18:29:43
阅读次数:
435
六、Hue数据可视化实例 本节用Impala、DB查询示例说明Hue的数据查询和可视化功能。1. Impala查询 在Impala OLAP实例一节中执行了一些查询,现在在...
分类:
其他好文 时间:
2016-08-31 17:16:46
阅读次数:
221