码迷,mamicode.com
首页 > Web开发 > 详细

lucene中facet实现统计分析的思路——本质上和word count计数无异

时间:2017-01-26 10:35:05      阅读:223      评论:0      收藏:0      [点我收藏+]

标签:for   trie   from   over   log   ack   统计   堆排   org   

http://stackoverflow.com/questions/185697/the-most-efficient-way-to-find-top-k-frequent-words-in-a-big-word-sequence

http://www.geeksforgeeks.org/find-the-k-most-frequent-words-from-a-file/

http://cs.stackexchange.com/questions/26427/word-frequency-with-ordering-in-on-complexity

思路大致如下:

(1)hash表统计单词出现次数,然后寻找top k出现的,其中top k可以使用n*log(k)的堆思路,或者快排思路,或者是桶排序思路(以前fbt里实现实时的积分排序);

(2)使用trie来统计单词出现次数,然后便利trie,利用堆排序思路求top k;

(3)使用桶排序,尤其是当你知道最大出现次数时候,类似以前做fbt实现的实时积分排序,然后从大到小取出top k;

(4)用map reduce。

lucene中facet实现统计分析的思路——本质上和word count计数无异

标签:for   trie   from   over   log   ack   统计   堆排   org   

原文地址:http://www.cnblogs.com/bonelee/p/6351298.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!