MapReduce

时间：2014-10-15 02:17:49 阅读：200 评论：0 收藏：0 [点我收藏+]

现在不敢说懂了，纯给自己科普。

wordcount

1）将文件拆分成splits，由于测试用的文件较小，所以每个文件为一个split，并将文件按行分割形成<key,value>对，如图所示。这一步由MapReduce框架自动完成，其中偏移量（即key值）包括了回车所占的字符数（Windows和Linux环境会不同）。

bubuko.com,布布扣

2）将分割好的<key,value>对交给用户定义的map方法进行处理，生成新的<key,value>对，如图所示。

bubuko.com,布布扣

3）得到map方法输出的<key,value>对后，Mapper会将它们按照key值进行排序，并执行Combine过程，将key至相同value值累加，得到Mapper的最终输出结果。如图所示。

bubuko.com,布布扣

4）Reducer先对从Mapper接收的数据进行排序，再交由用户自定义的reduce方法进行处理，得到新的<key,value>对，并作为WordCount的输出结果，如图所示。

bubuko.com,布布扣

转自：http://www.cnblogs.com/xia520pi/archive/2012/05/16/2504205.html

原文地址：http://www.cnblogs.com/linyx/p/4025436.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

周排行