首页 > Web开发 > 详细

Apache Hadoop 和Hadoop生态圈

时间：2015-06-10 19:32:12 阅读：130 评论：0 收藏：0 [点我收藏+]

标签：分布式计算 hadoop

Apache Hadoop 和Hadoop生态圈

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。

用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。

Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。HDFS有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上；而且它提供高吞吐量（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。HDFS放宽了（relax）POSIX的要求，可以以流的形式访问（streaming access）文件系统中的数据。

Hadoop的框架最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，则MapReduce为海量的数据提供了计算。

尽管Hadoop因MapReduce及其分布式文件系统HDFS而出名，但Hadoop这个名字也用于一组相关项目的统称，这些相关项目都使用这个基础平台进行分布式计算和海量数据处理。

Hadoop Common：

一组分布式文件系统和通用I/O的组件与接口（序列化，Java RPC 和持久化数据结构）

HDFS: Hadoop分布式文件系统(Distributed File System) － HDFS (Hadoop Distributed File System)，运行于大型商用机集群

分布式数据处理模型和执行环境，运行于大型商用机集群

一个分布式、按列存储数据库。HBase使用HDFS作为底层存储，同时支持MapReduce的批量式计算和点查询（随机读取）。

Hive：数据仓库工具，由Facebook贡献。一种分布式、按列存储的数据仓库。Hive管理HDFS中存储的数据，并提供基于SQL的查询语言（有运行时引擎翻译成MapReduce作业）用以查询数据。

Zookeeper：分布式锁设施，提供类似Google Chubby的功能，由Facebook贡献。一种分布式、可用性高的协调服务。提供分布式锁之类的基本服务用于构建分布式应用。

Avro：一种支持高效、跨语言的RPC以及永久存储数据的序列化系统。新的数据序列化格式与传输工具，将逐步取代Hadoop原有的IPC机制。

Pig:

大数据分析平台，为用户提供多种接口。一种数据流语言和运行环境，用以检索非常大的数据集。Pig运行在MapReduce和HDFS的集群上。

Ambari：

Hadoop管理工具，可以快捷的监控、部署、管理集群。

Sqoop：

在数据库和HDFS之间高效传输数据的工具。

参考文献：

http://baike.baidu.com/link?url=5TXA32tcYO3i-xO4cIMNT4b6EJv9rNo-2hO7L5FpZsEzeSHMh_BXS8d9yX4T80El7rGMUMMCgVRVfx-8a-Dl2q

http://hadoop.apache.org

《Hadoop权威指南》

Apache Hadoop 和Hadoop生态圈

标签：分布式计算 hadoop

原文地址：http://blog.csdn.net/xinxing__8185/article/details/46444649

踩

(0)

赞

(0)

举报

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行

更多

友情链接

兰亭集智国之画百度统计站长统计阿里云 chrome插件新版天听网

关于我们 - 联系我们 - 留言反馈

© 2014 mamicode.com 版权所有联系我们:gaon5@hotmail.com

迷上了代码！