搜索关键字：词频，搜索到1120个结果！码迷,mamicode.com！

对《达芬奇密码（The Da Vinci Code）》统计了各单词的出现次数。全书约12.5万字，出现了10240个单词，其中只有1559个单词出现了10次以上。详细结果在这里下载，可以用来背单词用。

分类：其他好文时间：2014-07-22 23:15:15 阅读次数：326

第一章：抛砖引玉字典树是一种基于链表的数据结构，以统计词频并返回用户最想输入的词汇为例，分享一下字典树的应用心得。刚建立的用户词库，用户输入两次“hilili”，输入一次“hilucy”，此时用户再次输入“hi”，我们应该联想到用户可能要输入的单词是“hilili”，以下为统计示例图。字典.....

分类：其他好文时间：2014-05-26 15:23:51 阅读次数：313

hdu 1671 Phone List

题目：链接：点击打开链接题意：给出几组数，判断是否有某组数是另一组数的前缀。算法：来源：点击打开链接字典树：又称单词查找树，Trie树，是一种树形结构，是一种哈希树的变种。典型应用是用于统计，排序和保存大量的字符串（但不仅限于字符串），所以经常被搜索引擎系统用于文本词频统计。它的优点是：利用字符串的公共前缀来节...

分类：其他好文时间：2014-05-25 07:00:01 阅读次数：245

Java实现的一个词频统计程序

Java实现的一个词频统计程序，考虑海量数据应该怎么做？MapReduce？！...

分类：编程语言时间：2014-05-22 11:29:46 阅读次数：361

MapReduce TopK统计加排序

Hadoop技术内幕中指出Top K算法有两步，一是统计词频，二是找出词频最高的前K个词。在网上找了很多MapReduce的Top K案例，这些案例都只有排序功能，所以自己写了个案例。这个案例分两个步骤，第一个是就是wordCount案例，二就是排序功能。一，统计词频 1 package TopK;...

分类：其他好文时间：2014-05-21 22:29:14 阅读次数：599

Trie树入门及训练

什么叫Trie树?Trie树即字典树。又称单词查找树，Trie树，是一种树形结构，是一种哈希树的变种。典型应用是用于统计，排序和保存大量的字符串（但不仅限于字符串），所以经常被搜索引擎系统用于文本词频统计。它的优点是：利用字符串的公共前缀来减少查询时间，最大限度地减少无谓的字符串比较，查询效率比哈希...

分类：其他好文时间：2014-05-09 12:43:02 阅读次数：437

谷歌技术"三宝"之MapReduce(转）

原文:http://blog.csdn.net/opennaive/article/details/7514146目录MapReduce是干啥的例子统计词频map函数和reduce函数MapReduce是如何工作的词频是怎么统计出来的用户的权利MapReduce的实现参考文献江湖传说永流传：谷歌技术...

分类：其他好文时间：2014-05-08 06:36:39 阅读次数：435

Trie树基本概念和训练指南

接触Trie树是在选拔赛时候遇到一题目，TLE无数次依然无解，赛后发现字符串统计有一利器名曰“字典树”，后来花了一段时间去写Trie. 什么叫Trie树? Trie树即字典树。又称单词查找树，Trie树，是一种树形结构，是一种哈希树的变种。典型应用是用于统计，排序和保存大量的字符串（但不仅限于字符串），所以经常被搜索引擎系统用于文本词频统计。它的优点是：利用字符串的公共前缀来减少查询时...

分类：其他好文时间：2014-05-07 07:05:09 阅读次数：351

Hadoop之词频统计小实验（基于单节点伪分布）

声明：1）本文由我bitpeach原创撰写，转载时请注明出处，侵权必究。 2）本小实验工作环境为Ubuntu操作系统，hadoop1-2-1，jdk1.8.0。 3）统计词频工作在单节点的伪分布上，至于真正实际集群的配置操作还没有达到，希望能够由本文抛砖引玉。（一）Hadoop的配置修正网上有很多...

分类：其他好文时间：2014-05-05 21:54:47 阅读次数：456

数据压缩算法之哈夫曼编码（HUFFMAN）的实现

HUFFMAN编码可以很有效的压缩数据，通常可以压缩20%到90%的空间（算法导论）。具体的压缩率取决于数据的特性（词频）。如果采取标准的语料库进行编码，一般可以得到比较满意的编码结果（对不同文件产生不同压缩率的折中方法）。本文采取对单独一个文件进行编码的方式来演示此压缩算法的使用。分为下面几个步骤...

分类：其他好文时间：2014-05-02 00:20:13 阅读次数：320

共1120条上一页 1 ... 110 111 112

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)