hadoop学习（Map、Reduce、日志分析和数据挖掘、大数据处理）

时间：2015-05-31 09:19:53 阅读：129 评论：0 收藏：0 [点我收藏+]

标签：

对于hadoop，我也处于了解学习中，参考大量资料，现在同大家分享下学习内容。

Hadoop 是Apache 下的一个项目，由HDFS、MapReduce、HBase、Hive 和ZooKeeper

等成员组成。其中，HDFS 和MapReduce 是两个最基础最重要的成员。

HDFS 是Google GFS 的开源版本，一个高度容错的分布式文件系统，它能够提供高吞

吐量的数据访问，适合存储海量（PB 级）的大文件（通常超过64M），其原理如下图所示：采用Master/Slave 结构。NameNode 维护集群内的元数据，对外提供创建、打开、删除

和重命名文件或目录的功能。DatanNode 存储数据，并提负责处理数据的读写请求。DataNode

定期向NameNode 上报心跳，NameNode 通过响应心跳来控制DataNode。

InfoWord 将MapReduce 评为2009 年十大新兴技术的冠军。MapReduce 是大规模数据

（TB 级）计算的利器，Map 和Reduce 是它的主要思想，来源于函数式编程语言，它的原

理如下图所示：

Map 负责将数据打散，Reduce

负责对数据进行聚集，用户只需要实

现map 和reduce 两个接口，即可完成

TB 级数据的计算，常见的应用包括：

日志分析和数据挖掘等数据分析应用。

另外，还可用于科学数据计算，如圆周

率PI 的计算等。

Hadoop MapReduce 的实现也采用

了Master/Slave 结构。Master 叫做

JobTracker，而Slave 叫做TaskTracker。

用户提交的计算叫做Job，每一个

Job 会被划分成若干个Tasks。JobTracker

负责Job 和Tasks 的调度，而TaskTracker

负责执行Tasks。

标签：

原文地址：http://blog.csdn.net/u012701023/article/details/46279381

踩

(0)

评论一句话评论（0）

分享档案

更多>

周排行