码迷,mamicode.com
首页 > Web开发 > 详细

Apache Hadoop 和Hadoop生态圈

时间:2015-06-10 19:32:12      阅读:130      评论:0      收藏:0      [点我收藏+]

标签:分布式计算   hadoop   

Apache Hadoop Hadoop生态圈


Hadoop是一个由Apache基金会所开发的分布式系统基础架构。

用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。


Hadoop实现了一个分布式文件系统Hadoop Distributed File System),简称HDFSHDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relaxPOSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。

Hadoop的框架最核心的设计就是:HDFSMapReduceHDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。

 

尽管HadoopMapReduce及其分布式文件系统HDFS而出名,但Hadoop这个名字也用于一组相关项目的统称,这些相关项目都使用这个基础平台进行分布式计算和海量数据处理。


Hadoop Common:

一组分布式文件系统和通用I/O的组件与接口(序列化,Java RPC 和持久化数据结构)

 

HDFS: Hadoop分布式文件系统(Distributed File System) - HDFS (Hadoop Distributed File System),运行于大型商用机集群


MapReduce

分布式数据处理模型和执行环境,运行于大型商用机集群


HBase

一个分布式、按列存储数据库。HBase使用HDFS作为底层存储,同时支持MapReduce的批量式计算和点查询(随机读取)。


Hive:数据仓库工具,由Facebook贡献。一种分布式、按列存储的数据仓库。Hive管理HDFS中存储的数据,并提供基于SQL的查询语言(有运行时引擎翻译成MapReduce作业)用以查询数据。


Zookeeper:分布式锁设施,提供类似Google Chubby的功能,由Facebook贡献。一种分布式、可用性高的协调服务。提供分布式锁之类的基本服务用于构建分布式应用。


Avro:一种支持高效、跨语言的RPC以及永久存储数据的序列化系统。新的数据序列化格式与传输工具,将逐步取代Hadoop原有的IPC机制。


Pig: 

大数据分析平台,为用户提供多种接口。一种数据流语言和运行环境,用以检索非常大的数据集。Pig运行在MapReduceHDFS的集群上。


Ambari

Hadoop管理工具,可以快捷的监控、部署、管理集群。


Sqoop

在数据库和HDFS之间高效传输数据的工具。

 

 

参考文献:

http://baike.baidu.com/link?url=5TXA32tcYO3i-xO4cIMNT4b6EJv9rNo-2hO7L5FpZsEzeSHMh_BXS8d9yX4T80El7rGMUMMCgVRVfx-8a-Dl2q

 

http://hadoop.apache.org

 

Hadoop权威指南》

Apache Hadoop 和Hadoop生态圈

标签:分布式计算   hadoop   

原文地址:http://blog.csdn.net/xinxing__8185/article/details/46444649

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!