对《达芬奇密码(The Da Vinci
Code)》统计了各单词的出现次数。全书约12.5万字,出现了10240个单词,其中只有1559个单词出现了10次以上。详细结果在这里下载,可以用来背单词用。
分类:
其他好文 时间:
2014-07-22 23:15:15
阅读次数:
326
第一章:抛砖引玉 字典树是一种基于链表的数据结构,以统计词频并返回用户最想输入的词汇为例,分享一下字典树的应用心得。 刚建立的用户词库,用户输入两次“hilili”,输入一次“hilucy”,此时用户再次输入“hi”,我们应该联想到用户可能要输入的单词是“hilili”,以下为统计示例图。
字典.....
分类:
其他好文 时间:
2014-05-26 15:23:51
阅读次数:
313
题目:
链接:点击打开链接
题意:
给出几组数,判断是否有某组数是另一组数的前缀。
算法:
来源:点击打开链接
字典树:又称单词查找树,Trie树,是一种树形结构,是一种哈希树的变种。典型应用是用于统计,排序和保存大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。它的优点是:利用字符串的公共前缀来节...
分类:
其他好文 时间:
2014-05-25 07:00:01
阅读次数:
245
Java实现的一个词频统计程序,考虑海量数据应该怎么做?MapReduce?!...
分类:
编程语言 时间:
2014-05-22 11:29:46
阅读次数:
361
Hadoop技术内幕中指出Top
K算法有两步,一是统计词频,二是找出词频最高的前K个词。在网上找了很多MapReduce的Top
K案例,这些案例都只有排序功能,所以自己写了个案例。这个案例分两个步骤,第一个是就是wordCount案例,二就是排序功能。一,统计词频 1 package
TopK;...
分类:
其他好文 时间:
2014-05-21 22:29:14
阅读次数:
599
什么叫Trie树?Trie树即字典树。又称单词查找树,Trie树,是一种树形结构,是一种哈希树的变种。典型应用是用于统计,排序和保存大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。它的优点是:利用字符串的公共前缀来减少查询时间,最大限度地减少无谓的字符串比较,查询效率比哈希...
分类:
其他好文 时间:
2014-05-09 12:43:02
阅读次数:
437
原文:http://blog.csdn.net/opennaive/article/details/7514146目录MapReduce是干啥的例子统计词频map函数和reduce函数MapReduce是如何工作的词频是怎么统计出来的用户的权利MapReduce的实现参考文献江湖传说永流传:谷歌技术...
分类:
其他好文 时间:
2014-05-08 06:36:39
阅读次数:
435
接触Trie树是在选拔赛时候遇到一题目,TLE无数次依然无解,赛后发现字符串统计有一利器名曰“字典树”,后来花了一段时间去写Trie.
什么叫Trie树?
Trie树即字典树。
又称单词查找树,Trie树,是一种树形结构,是一种哈希树的变种。典型应用是用于统计,排序和保存大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。它的优点是:利用字符串的公共前缀来减少查询时...
分类:
其他好文 时间:
2014-05-07 07:05:09
阅读次数:
351
声明:1)本文由我bitpeach原创撰写,转载时请注明出处,侵权必究。
2)本小实验工作环境为Ubuntu操作系统,hadoop1-2-1,jdk1.8.0。
3)统计词频工作在单节点的伪分布上,至于真正实际集群的配置操作还没有达到,希望能够由本文抛砖引玉。(一)Hadoop的配置修正 网上有很多...
分类:
其他好文 时间:
2014-05-05 21:54:47
阅读次数:
456
HUFFMAN编码可以很有效的压缩数据,通常可以压缩20%到90%的空间(算法导论)。具体的压缩率取决于数据的特性(词频)。如果采取标准的语料库进行编码,一般可以得到比较满意的编码结果(对不同文件产生不同压缩率的折中方法)。本文采取对单独一个文件进行编码的方式来演示此压缩算法的使用。分为下面几个步骤...
分类:
其他好文 时间:
2014-05-02 00:20:13
阅读次数:
320