MapReduce基本原理

时间：2021-02-09 12:33:28 阅读：0 评论：0 收藏：0 [点我收藏+]

在围绕Hadoop形成的大数据技术生态当中，MapReduce的地位，在早期是处于核心地位的，但是伴随着数据处理实时性需求的不断提升，更多新的计算框架出现，MapReduce的地位受到压制，但是作为Hadoop原始计算框架，还是需要相应程度的了解和掌握的。今天的大数据入门分享，我们来具体讲一讲MapReduce基本原理。

一、什么是MapReduce？

在Hadoop技术生态当中，MapReduce是作为计算引擎出现的，在处理超大规模的数据集上，MapReduce性能可观，通过分布式计算，将大规模数据计算任务分解，分布到不同的计算节点去并行计算，从而使得低成本下的大规模数据计算成为可能。

MapReduce的原型，公认的说法，是来自Google公司2004年发布的MapReduce论文，而后Doug Cutting根据谷歌的论文，实现了MapReduce，并将其作为Hadoop的一个组件开源。在Hadoop当中，MapReduce也是处于核心组件的地位。

二、MapReduce解决了什么问题？

互联网、移动互联网的高度发达，为数据存储和数据计算都带来了新的挑战。当数据的规模大到一定程度，单独的机器已经无法负荷。那么能够怎么办呢？首先能够想到的办法，就是增加机器。

而要想让一定数量的机器实现协同工作，并且工作效率要求还不低，应该怎么去实现呢？这就是MapReduce需要解决的问题。MapReduce作为一个分布式并行计算框架，就是一个把一群机器组织起来工作的编程模型。

三、MapReduce是怎么解决的？

MapReduce，其实从运行来说，就是分为大的两个阶段的，一个阶段是MapTask（将大任务拆分为小任务），第二个阶段是ReduceTask（小任务计算结果重组），两个阶段之间，有个Shuffle的过程。

MapTask

整个MapTask分为Read阶段，Map阶段，Collect阶段，溢写（spill）阶段和combine阶段。

Read阶段：MapTask通过用户编写的RecordReader，从输入InputSplit中解析出一个个key/value；

Map阶段：该节点主要是将解析出的key/value交给用户编写map()函数处理，并产生一系列新的key/value；

Collect收集阶段：在用户编写map()函数中，当数据处理完成后，一般会调用OutputCollector.collect()输出结果。在该函数内部，它会将生成的key/value分区（调用Partitioner），并写入一个环形内存缓冲区中；

Spill阶段：即“溢写”，当环形缓冲区满后，MapReduce会将数据写到本地磁盘上，生成一个临时文件。需要注意的是，将数据写入本地磁盘之前，先要对数据进行一次本地排序，并在必要时对数据进行合并、压缩等操作；

Shuffle

Map方法之后，Reduce方法之前的数据处理过程称之为Shuffle。shuffle流程如下：

MapTask收集map()方法输出的kv对，放到环形缓冲区中；
从环形缓冲区不断溢出到本地磁盘文件，可能会溢出多个文件；
多个溢出文件会被合并成大的溢出文件；
在溢出过程及合并的过程中，都要调用Partitioner进行分区和针对key进行排序；
ReduceTask根据自己的分区号，去各个MapTask机器上取相应的结果分区数据；
ReduceTask将取到的来自同一个分区不同MapTask的结果文件进行归并排序；
合并成大文件后，shuffle过程也就结束了，进入reduce方法。

ReduceTask

整个ReduceTask分为Copy阶段，Merge阶段，Sort阶段（Merge和Sort可以合并为一个），Reduce阶段。

Copy阶段：ReduceTask从各个MapTask上远程拷贝一片数据，并针对某一片数据，如果其大小超过一定阈值，则写到磁盘上，否则直接放到内存中；

Merge阶段：在远程拷贝数据的同时，ReduceTask启动了两个后台线程对内存和磁盘上的文件进行合并，以防止内存使用过多或磁盘上文件过多；

Sort阶段：按照MapReduce语义，用户编写reduce()函数输入数据是按key进行聚集的一组数据。为了将key相同的数据聚在一起，Hadoop采用了基于排序的策略。由于各个MapTask已经实现对自己的处理结果进行了局部排序，因此，ReduceTask只需对所有数据进行一次归并排序即可；

Reduce阶段：reduce()函数将计算结果写到HDFS上。

关于大数据入门，MapReduce基本原理，以上就为大家做了一个简单的介绍了。在Hadoop生态当中，MapReduce虽然地位日益尴尬，但是其MapReduce思想，在后来的框架（比如Spark）当中，继续得到了继承。

MapReduce基本原理

标签：使用 tor 无法 putc 图片操作 partition 大数据阈值

原文地址：https://www.cnblogs.com/IT-Evan/p/14365715.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行