Hadoop学习之路（十八）MapReduce框架Combiner分区

时间：2018-03-21 13:47:08 阅读：171 评论：0 收藏：0 [点我收藏+]

标签：自定义比较 apt 分区 red 写入文件特殊多个数据传输

对combiner的理解

combiner其实属于优化方案，由于带宽限制，应该尽量map和reduce之间的数据传输数量。它在Map端把同一个key的键值对合并在一起并计算，计算规则与reduce一致，所以combiner也可以看作特殊的Reducer。

执行combiner操作要求开发者必须在程序中设置了combiner(程序中通过job.setCombinerClass(myCombine.class)自定义combiner操作)。

Combiner组件是用来做局部汇总的，就在mapTask中进行汇总；Reducer组件是用来做全局汇总的，最终的，最后一次汇总。

哪里使用combiner?

1，map输出数据根据分区排序完成后，在写入文件之前会执行一次combine操作(前提是作业中设置了这个操作);

2，如果map输出比较大，溢出文件个数大于3(此值可以通过属性min.num.spills.for.combine配置)时，在merge的过程(多个spill文件合并为一个大文件)中前还会执行combiner操作;

注意事项

不是每种作业都可以做combiner操作的，只有满足以下条件才可以：

1、Combiner 只能对一个mapTask的中间结果进行汇总

2、如果想使用Reducer直接充当Combiner，那么必须满足： Reducer的输入和输出key-value类型是一致的。

1）处于两个不同节点的mapTask的结果不能combiner到一起

2）处于同一个节点的两个MapTask的结果不能否combiner到一起

3）求最大值、求最小值、求和、去重时可直接使用Reducer充当Combiner，但是求平均值时不能直接使用Reducer充当Combiner。

　　原因：对2组值求平均值

　　2 3 4 5 6 == 20 / 5 == 4

　　4 5 6 == 15 / 3 == 5

　　***********************************************************************

　　20+15 / 5+3 = 35 / 8

　　4.5

Hadoop学习之路（十八）MapReduce框架Combiner分区

标签：自定义比较 apt 分区 red 写入文件特殊多个数据传输

原文地址：https://www.cnblogs.com/qingyunzong/p/8584509.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行