字典树,又称单词查找树,Trie树,是一种树形结构,典型应用是用于统计,排序和保存大量的字符串,所以经常被搜索引擎系统用于文本词频统计。它的优点是:利用字符串的公共前缀来节约存储空间,最大限度的减少无谓的字符串比较,查询效率比哈希表高。它有三个基本性质,根节点不包含字符,除根节点外每一个节点都只包含...
分类:
其他好文 时间:
2014-07-30 12:04:33
阅读次数:
487
又称单词查找树,Trie树,是一种树形结构,是一种哈希树的变种。典型应用是用于统计,排序和保存大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。它的优点是:利用字符串的公共前缀来减少查询时间,最大限度地减少无谓的字符串比较,查询效率比哈希表高。Trie的数据结构定义:Code...
分类:
其他好文 时间:
2014-07-28 14:45:03
阅读次数:
196
Trie,又称单词查找树或键树,是一种树形结构。典型应用是用于统计和排序大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。它的优点是:最大限度地减少无谓的字符串比较,查询效率比哈希表高。它有3个基本性质:根节点不包含字符,除根节点外每一个节点都只包含一个字符。从根节点到某一节...
分类:
编程语言 时间:
2014-07-21 14:18:16
阅读次数:
1021
背景:分析用户在世界杯期间讨论最多的话题。
思路:把用户关于世界杯的帖子拉下来,然后做中文分词+词频统计,最后将统计结果简单做个标签云,效果如下
后续:中文分词是中文信息处理的基础,分词之后,其实还有特别多有趣的文本挖掘工作可以做,也是个知识发现的过程,以后有机会再学习下。...
分类:
其他好文 时间:
2014-07-13 18:53:55
阅读次数:
367
前面已经在我的Ubuntu单机上面搭建好了伪分布模式的HBase环境,其中包括了Hadoop的运行环境。
详见我的这篇博文:http://blog.csdn.net/jiyiqinlovexx/article/details/29208703
我的目的主要是学习HBase,下一步打算学习的是将HBase作为Hadoop作业的输入和输出。
但是好像以前在南大上学时学习的Hadoop都忘记得差不...
分类:
其他好文 时间:
2014-06-25 08:41:05
阅读次数:
889
声明:
1)本文由我bitpeach原创撰写,转载时请注明出处,侵权必究。2)本小实验工作环境为Windows系统下的百度云(联网),和Ubuntu系统的hadoop1-2-1(自己提前配好)。如不清楚配置可看《Hadoop之词频统计小实验初步配置》3)本文由于过长,无法一次性上传。下面是五个部分....
分类:
其他好文 时间:
2014-06-07 02:55:09
阅读次数:
178
声明:
1)本文由我bitpeach原创撰写,转载时请注明出处,侵权必究。2)本小实验工作环境为Windows系统下的百度云(联网),和Ubuntu系统的hadoop1-2-1(自己提前配好)。如不清楚配置可看《Hadoop之词频统计小实验初步配置》3)本文由于过长,无法一次性上传。其相邻相关的博....
分类:
其他好文 时间:
2014-05-30 13:26:48
阅读次数:
538
声明:
1)本文由我bitpeach原创撰写,转载时请注明出处,侵权必究。2)本小实验工作环境为Windows系统下的百度云(联网),和Ubuntu系统的hadoop1-2-1(自己提前配好)。如不清楚配置可看《Hadoop之词频统计小实验初步配置》3)本文由于过长,无法一次性上传。其相邻相关的博....
分类:
其他好文 时间:
2014-05-30 13:25:19
阅读次数:
400
声明:
1)本文由我bitpeach原创撰写,转载时请注明出处,侵权必究。2)本小实验工作环境为Windows系统下的百度云(联网),和Ubuntu系统的hadoop1-2-1(自己提前配好)。如不清楚配置可看《Hadoop之词频统计小实验初步配置》3)本文由于过长,无法一次性上传。其相邻相关的博....
分类:
其他好文 时间:
2014-05-30 13:12:51
阅读次数:
394
声明:
1)本文由我bitpeach原创撰写,转载时请注明出处,侵权必究。2)本小实验工作环境为Windows系统下的百度云(联网),和Ubuntu系统的hadoop1-2-1(自己提前配好)。如不清楚配置可看《Hadoop之词频统计小实验初步配置》3)本文由于过长,无法一次性上传。其相邻相关的博....
分类:
其他好文 时间:
2014-05-30 12:45:25
阅读次数:
563