码迷,mamicode.com
首页 > 其他好文 > 详细

经典topK问题

时间:2014-12-12 19:10:20      阅读:167      评论:0      收藏:0      [点我收藏+]

标签:des   style   ar   os   使用   sp   java   on   问题   

hadoop的入门问题是wordcount,而经典问题是TopK计算,比如热词,搜索链接热度等都是topK问题的变种

TopK问题使用MapReduce解决需要2步,而使用Tez解决可以缩减为一步,使用Tez其实也就是将2步MapReduce转化成DAG,一步完成,Tez大量复用了MapReduce代码。

这里我们讨论使用MapReduce解决问题

第一步wordcount,终于理解“道格”,把wordcount作为MapReduce编程的实例的用心了,哈哈,wordcount这里不再赘述

第二部翻转key和value

自己写一个key的排序编码,一下是代码:

<span style="font-family:Microsoft YaHei;font-size:14px;">/***
 * 按词频降序排序
 * 的类
 * 
 * **/
	public static class DescSort extends  WritableComparator{

		 public DescSort() {
			 super(IntWritable.class,true);//注册排序组件
		}
		 @Override
		public int compare(byte[] arg0, int arg1, int arg2, byte[] arg3,
				int arg4, int arg5) {
			return -super.compare(arg0, arg1, arg2, arg3, arg4, arg5);//注意使用负号来完成降序
		}
		 
		 @Override
		public int compare(Object a, Object b) {
	 
			return   -super.compare(a, b);//注意使用负号来完成降序
		}
		
	}</span>
这样就可以解决topK这个问题了,这里写的比较简略,理解概念,自行修改

经典topK问题

标签:des   style   ar   os   使用   sp   java   on   问题   

原文地址:http://blog.csdn.net/qingmu0803/article/details/41896973

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!