码迷,mamicode.com
首页 > 其他好文 > 详细

Mapreduce中自定义分区

时间:2015-04-23 10:48:22      阅读:112      评论:0      收藏:0      [点我收藏+]

标签:

Reducer任务的数据来自于Mapper任务,也就说Mapper任务要划分数据,对于不同的数据分配给不同的Reducer任务运行。Mapper任务划分数据的过程就称作Partition。负责实现划分数据的类称作Partitioner。

 

默认的分区类是HashPartitioner,是处理Mapper任务输出的,getPartition()方法有三个形参,key、value分别指的是Mapper任务的输出,numReduceTasks指的是设置的Reducer任务数量,默认值是1。那么任何整数与1相除的余数肯定是0。也就是说getPartition(…)方法的返回值总是0。也就是Mapper任务的输出总是送给一个Reducer任务,最终只能输出到一个文件中。

 

据此分析,如果想要自定义分区,最终输出到多个文件中,在Mapper任务中对数据应该划分到多个区中。那么,我们只需要覆盖Partitioner类的getpartition(…),按照一定的规则让getPartition(…)方法的返回值是0,1,2,3…。并在驱动中进行两个设置。

 

Mapreduce中自定义分区

标签:

原文地址:http://www.cnblogs.com/mlj5288/p/4449687.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!