hadoop原理

时间：2018-10-31 22:12:51 阅读：275 评论：0 收藏：0 [点我收藏+]

　原理讲解::　　　https://www.cnblogs.com/mmzs/p/8031137.html#_label0_0

Hadoop项目主要包括以下四个模块

◆ Hadoop Common:
为其他Hadoop模块提供基础设施
◆ Hadoop HDFS:
一个高可靠、高吞吐量的分布式文件系统
◆ Hadoop MapReduce:
一个分布式的离线并行计算框架
◆ Hadoop YARN:
一个新的MapReduce框架，任务调度与资源管理

Apache Hadoop起源

◆Apache Lucene
开源的高性能全文检索工具包
◆Apache Nutch
开源的Web搜索引擎
◆Google三大论文
MapReduce/GFS/BigTable
◆Apache Hadoop
大规模数据处理

技术分享图片

（基于磁盘IO进行迭代，开销较大）

◆将计算过程分为两个阶段：Map和Reduce
Map阶段并行处理输入数据；
Reduce阶段对Map结果进行汇总；
◆ Shuffle链接Map和Reduce两个阶段（Shuffle通俗的理解就是重新洗牌，打乱原有顺序）
Map Task将数据写到本地磁盘；
Reduce Task从每个Map Task上读取一份数据；
◆ 仅适合离线批处理
具有很好的容错性和扩展性；
适合简单的批处理任务；
◆ 缺点明显：
启动开销大，过多使用磁盘导致效率低下等；