码迷,mamicode.com
首页 >  
搜索关键字:词频    ( 1120个结果
一本英文小说的词频统计
对《达芬奇密码(The Da Vinci Code)》统计了各单词的出现次数。全书约12.5万字,出现了10240个单词,其中只有1559个单词出现了10次以上。详细结果在这里下载,可以用来背单词用。
分类:其他好文   时间:2014-07-22 23:15:15    阅读次数:326
【字典树应用】联想用户最想输入的词汇
第一章:抛砖引玉 字典树是一种基于链表的数据结构,以统计词频并返回用户最想输入的词汇为例,分享一下字典树的应用心得。 刚建立的用户词库,用户输入两次“hilili”,输入一次“hilucy”,此时用户再次输入“hi”,我们应该联想到用户可能要输入的单词是“hilili”,以下为统计示例图。 字典.....
分类:其他好文   时间:2014-05-26 15:23:51    阅读次数:313
hdu 1671 Phone List
题目:         链接:点击打开链接 题意:         给出几组数,判断是否有某组数是另一组数的前缀。 算法:         来源:点击打开链接         字典树:又称单词查找树,Trie树,是一种树形结构,是一种哈希树的变种。典型应用是用于统计,排序和保存大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。它的优点是:利用字符串的公共前缀来节...
分类:其他好文   时间:2014-05-25 07:00:01    阅读次数:245
Java实现的一个词频统计程序
Java实现的一个词频统计程序,考虑海量数据应该怎么做?MapReduce?!...
分类:编程语言   时间:2014-05-22 11:29:46    阅读次数:361
MapReduce TopK统计加排序
Hadoop技术内幕中指出Top K算法有两步,一是统计词频,二是找出词频最高的前K个词。在网上找了很多MapReduce的Top K案例,这些案例都只有排序功能,所以自己写了个案例。这个案例分两个步骤,第一个是就是wordCount案例,二就是排序功能。一,统计词频 1 package TopK;...
分类:其他好文   时间:2014-05-21 22:29:14    阅读次数:599
Trie树入门及训练
什么叫Trie树?Trie树即字典树。又称单词查找树,Trie树,是一种树形结构,是一种哈希树的变种。典型应用是用于统计,排序和保存大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。它的优点是:利用字符串的公共前缀来减少查询时间,最大限度地减少无谓的字符串比较,查询效率比哈希...
分类:其他好文   时间:2014-05-09 12:43:02    阅读次数:437
谷歌技术"三宝"之MapReduce(转)
原文:http://blog.csdn.net/opennaive/article/details/7514146目录MapReduce是干啥的例子统计词频map函数和reduce函数MapReduce是如何工作的词频是怎么统计出来的用户的权利MapReduce的实现参考文献江湖传说永流传:谷歌技术...
分类:其他好文   时间:2014-05-08 06:36:39    阅读次数:435
Trie树基本概念和训练指南
接触Trie树是在选拔赛时候遇到一题目,TLE无数次依然无解,赛后发现字符串统计有一利器名曰“字典树”,后来花了一段时间去写Trie. 什么叫Trie树? Trie树即字典树。 又称单词查找树,Trie树,是一种树形结构,是一种哈希树的变种。典型应用是用于统计,排序和保存大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。它的优点是:利用字符串的公共前缀来减少查询时...
分类:其他好文   时间:2014-05-07 07:05:09    阅读次数:351
Hadoop之词频统计小实验(基于单节点伪分布)
声明:1)本文由我bitpeach原创撰写,转载时请注明出处,侵权必究。 2)本小实验工作环境为Ubuntu操作系统,hadoop1-2-1,jdk1.8.0。 3)统计词频工作在单节点的伪分布上,至于真正实际集群的配置操作还没有达到,希望能够由本文抛砖引玉。(一)Hadoop的配置修正 网上有很多...
分类:其他好文   时间:2014-05-05 21:54:47    阅读次数:456
数据压缩算法之哈夫曼编码(HUFFMAN)的实现
HUFFMAN编码可以很有效的压缩数据,通常可以压缩20%到90%的空间(算法导论)。具体的压缩率取决于数据的特性(词频)。如果采取标准的语料库进行编码,一般可以得到比较满意的编码结果(对不同文件产生不同压缩率的折中方法)。本文采取对单独一个文件进行编码的方式来演示此压缩算法的使用。分为下面几个步骤...
分类:其他好文   时间:2014-05-02 00:20:13    阅读次数:320
1120条   上一页 1 ... 110 111 112
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!