Hadoop里的Partitioner

时间：2014-08-04 17:37:27 阅读：241 评论：0 收藏：0 [点我收藏+]

标签：style blog http color java 使用 os strong

人们对于Mapreduce程序刚开始时都认为只需要一个reduce就够了。毕竟，在你处理数据之前一个reducer已经把数据都分好类了，有谁不喜欢分好类的数据呢。但是这样我们就忽略了并行计算的优势。如果只有一个reducer，我们的云计算就退化成了一个小雨点。

在多个reducer的情况下，我们需要某种机制来控制mapper的结果的分配问题。这是就Partitioner的工作了。

在默认情况下，hadoop通过比较key的hash值来分配，默认使用HashPartitioner。有时默认的功能不能满足我们的要求，比如我们以前自定义的Edge类（http://blog.csdn.net/on_way_/article/details/8589187）。当我们想要知道每个机场乘客起飞的数量时。我们有如下数据

(北京，上海) 张三

(北京，青岛) 李四。。。。。。。

如果我们用HashPartitioner来分配，那么这两行就会被送往不同的reducer上，机场起飞的数量就会被算两次，而且每次都是错误的。

我们需要为我们的应用程序定制一个partitioner。

[java] view
 plaincopyprint?

import org.apache.hadoop.io.Writable;  

import org.apache.hadoop.mapred.JobConf;  

import org.apache.hadoop.mapred.Partitioner;  

public class EdgePartitioner implements Partitioner<Edge, Writable>{  

    @Override  

    public void configure(JobConf job) {  

        // TODO Auto-generated method stub  

    }  

    @Override  

    public int getPartition(Edge key, Writable value, int numPartitions) {  

        // TODO Auto-generated method stub  

        return key.getDepartureNode().hashCode() % numPartitions;  

    }  

}

下面的这张图给出了Partitioner的具体解释

bubuko.com,布布扣

在map和reduce两个阶段之间，一个MapReduce程序必须把mapper的输出分配到多个reducer上，这个过程叫做shuffling，因为一个mapper的输出结果有可能被分配到集群中的多个节点中去。

Hadoop里的Partitioner,布布扣,bubuko.com

Hadoop里的Partitioner

标签：style blog http color java 使用 os strong

原文地址：http://blog.csdn.net/christprince007/article/details/38372553

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行