码迷,mamicode.com
首页 > 其他好文 > 详细

top-N 抽样

时间:2016-02-16 14:45:04      阅读:104      评论:0      收藏:0      [点我收藏+]

标签:

 

 

 

 
1, 使用hive标记random:(如果是mr,就自己标记random值)
use ps;
set mapred.job.priority=VERY_HIGH;
set mapred.job.map.capcity=300;
set mapred.reduce.tasks=200;
 
insert overwrite directory "*"
select url, count(1), min(link_found_time), rand()
from entry
where *=‘20151106‘
group by url;
 
2, 数据抽样:
在各个分区各使用小顶推实现top-N,
 
3, 得到top-N
TopN:使用小顶堆实现。
 

 

top-N 抽样

标签:

原文地址:http://www.cnblogs.com/i80386/p/5192428.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!