搜索关键字：词频统计，搜索到846个结果！码迷,mamicode.com！

字典树

字典树，又称单词查找树，Trie树，是一种树形结构，典型应用是用于统计，排序和保存大量的字符串，所以经常被搜索引擎系统用于文本词频统计。它的优点是：利用字符串的公共前缀来节约存储空间，最大限度的减少无谓的字符串比较，查询效率比哈希表高。它有三个基本性质，根节点不包含字符，除根节点外每一个节点都只包含...

分类：其他好文时间：2014-07-30 12:04:33 阅读次数：487

7月28--字典树

又称单词查找树，Trie树，是一种树形结构，是一种哈希树的变种。典型应用是用于统计，排序和保存大量的字符串（但不仅限于字符串），所以经常被搜索引擎系统用于文本词频统计。它的优点是：利用字符串的公共前缀来减少查询时间，最大限度地减少无谓的字符串比较，查询效率比哈希表高。Trie的数据结构定义：Code...

分类：其他好文时间：2014-07-28 14:45:03 阅读次数：196

Java实现Tire

Trie，又称单词查找树或键树，是一种树形结构。典型应用是用于统计和排序大量的字符串（但不仅限于字符串），所以经常被搜索引擎系统用于文本词频统计。它的优点是：最大限度地减少无谓的字符串比较，查询效率比哈希表高。它有3个基本性质：根节点不包含字符，除根节点外每一个节点都只包含一个字符。从根节点到某一节...

分类：编程语言时间：2014-07-21 14:18:16 阅读次数：1021

中文分词实践（基于R语言）

背景：分析用户在世界杯期间讨论最多的话题。思路：把用户关于世界杯的帖子拉下来，然后做中文分词+词频统计，最后将统计结果简单做个标签云，效果如下后续：中文分词是中文信息处理的基础，分词之后，其实还有特别多有趣的文本挖掘工作可以做，也是个知识发现的过程，以后有机会再学习下。...

分类：其他好文时间：2014-07-13 18:53:55 阅读次数：367

Hadoop基础学习（一）分析、编写并运行WordCount词频统计程序

前面已经在我的Ubuntu单机上面搭建好了伪分布模式的HBase环境，其中包括了Hadoop的运行环境。详见我的这篇博文：http://blog.csdn.net/jiyiqinlovexx/article/details/29208703 我的目的主要是学习HBase，下一步打算学习的是将HBase作为Hadoop作业的输入和输出。但是好像以前在南大上学时学习的Hadoop都忘记得差不...

分类：其他好文时间：2014-06-25 08:41:05 阅读次数：889

Hadoop的改进实验（中文分词词频统计及英文词频统计）博文目录结构

声明： 1）本文由我bitpeach原创撰写，转载时请注明出处，侵权必究。2）本小实验工作环境为Windows系统下的百度云（联网），和Ubuntu系统的hadoop1-2-1（自己提前配好）。如不清楚配置可看《Hadoop之词频统计小实验初步配置》3）本文由于过长，无法一次性上传。下面是五个部分....

分类：其他好文时间：2014-06-07 02:55:09 阅读次数：178

Hadoop的改进实验（中文分词词频统计及英文词频统计）（2/4）

声明： 1）本文由我bitpeach原创撰写，转载时请注明出处，侵权必究。2）本小实验工作环境为Windows系统下的百度云（联网），和Ubuntu系统的hadoop1-2-1（自己提前配好）。如不清楚配置可看《Hadoop之词频统计小实验初步配置》3）本文由于过长，无法一次性上传。其相邻相关的博....

分类：其他好文时间：2014-05-30 13:26:48 阅读次数：538

Hadoop的改进实验（中文分词词频统计及英文词频统计）（3/4）

声明： 1）本文由我bitpeach原创撰写，转载时请注明出处，侵权必究。2）本小实验工作环境为Windows系统下的百度云（联网），和Ubuntu系统的hadoop1-2-1（自己提前配好）。如不清楚配置可看《Hadoop之词频统计小实验初步配置》3）本文由于过长，无法一次性上传。其相邻相关的博....

分类：其他好文时间：2014-05-30 13:25:19 阅读次数：400

Hadoop的改进实验（中文分词词频统计及英文词频统计）（4/4）

声明： 1）本文由我bitpeach原创撰写，转载时请注明出处，侵权必究。2）本小实验工作环境为Windows系统下的百度云（联网），和Ubuntu系统的hadoop1-2-1（自己提前配好）。如不清楚配置可看《Hadoop之词频统计小实验初步配置》3）本文由于过长，无法一次性上传。其相邻相关的博....

分类：其他好文时间：2014-05-30 13:12:51 阅读次数：394

Hadoop的改进实验（中文分词词频统计及英文词频统计）（1/4）

声明： 1）本文由我bitpeach原创撰写，转载时请注明出处，侵权必究。2）本小实验工作环境为Windows系统下的百度云（联网），和Ubuntu系统的hadoop1-2-1（自己提前配好）。如不清楚配置可看《Hadoop之词频统计小实验初步配置》3）本文由于过长，无法一次性上传。其相邻相关的博....

分类：其他好文时间：2014-05-30 12:45:25 阅读次数：563