MapReduce 编程系列九使用HashPartitioner来调节Reducer的计算负载

时间：2014-10-03 16:37:14 阅读：220 评论：0 收藏：0 [点我收藏+]

example4演示了如何指定Reducer的数量，本节演示如何使用HashPartitioner将Mapper的输出按照key进行分组后交给Reducer来处理。合理的分组策略将使得每个Reducer获得的计算负载差距不大，从而整体reduce的性能更加均衡。

Reducer的数量由HashPartitioner函数getPartition返回值来确定。

public int getPartition(K2 key, V2 value, int numReduceTasks) {
return (key.hashCode() & Integer.MAX_VALUE) & numReduceTasks;
}

上面的代码表示根据key的hash code 除以2的31次方后取余数，用该余数再次除以reducer的数量，再取余数。得到的结果才是这个key对应的partition的编号。

原因是 Integer.MAX_VALUE是2的31次方-1, 一个数如果和一个2的N次方-1的数按位与就等价于这个数对2的N次方取余数。

参考我的文档：

所有计算出来属于同一个partition的key，以及它的value都会被发送到对应的reducer去做处理。

所以结论如下：

partitioner不会改变reducer的数量，而会决定哪些<key,value>进入哪个组，从而改变reducer处理的数据的量

我的example5就是采用了hash partitioner. 在example4的基础上，仅仅修改了LogJob.java的一行代码：

        job.setPartitionerClass(HashPartitioner.class);

原文地址：http://blog.csdn.net/csfreebird/article/details/39755601

踩

(0)

评论一句话评论（0）

分享档案

更多>

周排行

MapReduce 编程 系列九 使用HashPartitioner来调节Reducer的计算负载