码迷,mamicode.com
首页 > 其他好文 > 详细

MapReduce之自定义Partitioner

时间:2020-04-19 13:01:58      阅读:62      评论:0      收藏:0      [点我收藏+]

标签:als   sof   hashcode   技术   table   重写   mapr   width   ica   

概述

Map方法之后, 数据首先进入到分区方法, 把数据标记好分区, 然后把数据发送到环形缓冲区; reduce的并行数量以及输出文件的个数, 由分区数决定. 

默认分区是根据key的hashCode对ReduceTasks个数取模得到.
技术图片

自定义步骤

1.自定义类继承Partitioner, 重写getPartion方法
技术图片
2. 在Job驱动中, 设置自定义Partitioner
技术图片
3. 自定义Partititon后, 要根据自定义的Partioner的逻辑设置相应数量的ReducerTask
  技术图片

Reduce数量分区数量的匹配

  • 如果reduce数量大于分区数, 则会产生空白输出文件part-r-000xx
  • 如果reduce数量小分区数, 则会一部分数据无处安放, 会抛异常
  • 如果reduce数量=1, 最终输出一个文件
注意: 分区号必须从零开始, 逐一累加.

MapReduce之自定义Partitioner

标签:als   sof   hashcode   技术   table   重写   mapr   width   ica   

原文地址:https://www.cnblogs.com/bitbitbyte/p/12730776.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!