从海量文本中统计出前k个频率最高的词语

时间：2016-03-08 19:38:27 阅读：146 评论：0 收藏：0 [点我收藏+]

标签：

现有如下题目：有一个海量文本，存储的是汉语词语，要求从中找出前K个出现频率最高的词语，写出最优算法，兼顾时间和空间复杂度。

思路分析：熟悉搜索引擎的程序员，应该不是难题。用传统的HashMap是无法解决的，因为数据量非常庞大的时候，空间复杂度会导致程序运行时，频繁执行MinorGC和MajorGC，最终JVM会宕掉。之前写的字母排列算法的时候，当输出100多万条数据的时候，JVM就宕掉了，下面用自平衡的三叉树来解决此问题。

第一步：对文本进行排序和折中处理，更新文本，要要用到pinyin4j项目包；

第二步：把更新后的字典，加载到三叉树中，实现平衡的三叉树，自定义的三叉树要增加节点字符出现次数的变量，以便实现词频统计；

第三步：遍历字典，每次读到的词语，用三叉树查询，得到频率，然后把读到的词语和频率写到另一个文件中，用空格分开，类似于Key-value键值对形式；

第四步：和上一篇的问题雷同，从海量数据中查找出前10个最小值；

第五步：得到最小频率值的堆后，从新的文本中找到对应的词语，加入到set中，统一频率的词语会有很多，而不是一个，输出应该是如下形式：

[xxx,xxx,xxx……]

……

代码省略，不上传了！

从海量文本中统计出前k个频率最高的词语

标签：

原文地址：http://www.cnblogs.com/txq157/p/5255158.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行