MapReduce 过程分析

时间：2016-08-05 17:32:15 阅读：151 评论：0 收藏：0 [点我收藏+]

标签：

原文地址：http://blog.jobbole.com/81676/

2、WordCount处理过程

上面给出了WordCount的设计思路和源码，但是没有深入细节，下面对WordCount进行更加详细的分析：

（1）将文件拆分成splits，由于测试用的文件较小，所以每一个文件为一个split，并将文件按行分割成<key, value>对，如图，这一步由Mapreduce框架自动完成，其中偏移量包括了回车所占的字符

（2）将分割好的<key, value>对交给用户定义的map方法进行处理，生成新的<key, value>对

（3）得到map方法输出的<key, value>对后，Mapper会将它们按照key值进行排序，并执行Combine过程，将key值相同的value值累加，得到Mapper的最终输出结果，如图：

技术分享

（4）Reduce先对从Mapper接收的数据进行排序，再交由用户自定义的reduce方法进行处理，得到新的<key, value>对，并作为WordCount的输出结果，如图：

技术分享

标签：

原文地址：http://www.cnblogs.com/alexlo/p/5742120.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

周排行