标签:
一:背景
在上一篇文章中我们可以对两列数据进行排序,即完成了当第一列相同时第二列数据升序排列的功能,现在我们需要进一步完善一个功能,那就是当第一列相同时求出第二列的最小值或最大值,Hadoop提供了自定义分组的功能,可以满足我们的需求。
二:技术实现
我们先来看看需求
#当第一列不相等时,第一列按升序排列,当第一列相等时,求出对应第二列的最小值
输出结果应该是:
实现:
(1).自定义分组比较器继承RawComparator,实现compare()方法。
(2).在设置作业是设置job.setGroupingComparatorClass()。
代码如下:
标签:
原文地址:http://www.cnblogs.com/thinkpad/p/5173738.html