目前分词性能比较差,只有1.65M/s,同事在没有改变主要算法的情况下做了一点优化调整,到3.52M/s,但对性能的提升仍然不够明显。我感觉亟须解决几个问题:
1.search时keyword分词也按多种粒度进行,然后分别sloppyphrase,最后or起来,由于大粒度分的词词频低,因此idf大,它们在排序时优先级更高,符合期望。现在只做一个粒度的切法,又要求在索引里面都能找到,感觉不太现实。...
分类:
其他好文 时间:
2014-06-27 07:07:34
阅读次数:
203
前面已经在我的Ubuntu单机上面搭建好了伪分布模式的HBase环境,其中包括了Hadoop的运行环境。
详见我的这篇博文:http://blog.csdn.net/jiyiqinlovexx/article/details/29208703
我的目的主要是学习HBase,下一步打算学习的是将HBase作为Hadoop作业的输入和输出。
但是好像以前在南大上学时学习的Hadoop都忘记得差不...
分类:
其他好文 时间:
2014-06-25 08:41:05
阅读次数:
889
第一行输出该词所在的行数序号(多个的话,按照从小到大排序输出,中间空格隔开,序号从一开始记),如果没有出现,输出 -1
第二行输出频次排名R的单词出现的次数。
测试数据中的词频的分布如下,可见,排名第3的词,出现的次数为2
I,4
Beijing,2
in,2
love,2
.,1
Bejing,1
a,1
also,1
am,1
and,1
beautiful,1
i...
分类:
其他好文 时间:
2014-06-18 06:52:00
阅读次数:
224
TF-IDF算法全称为termfrequency–inversedocumentfrequency。TF就是termfrequency的缩写,意为词频。IDF则是inversedocumentfrequency的缩写,意为逆文档频率。该算法在信息处理中通常用来抽取关键词。比如,对一个文章提取关键词作为搜索词,就可以采用TF-IDF算法。要找出一?.
分类:
其他好文 时间:
2014-06-10 22:27:19
阅读次数:
395
声明:
1)本文由我bitpeach原创撰写,转载时请注明出处,侵权必究。2)本小实验工作环境为Windows系统下的百度云(联网),和Ubuntu系统的hadoop1-2-1(自己提前配好)。如不清楚配置可看《Hadoop之词频统计小实验初步配置》3)本文由于过长,无法一次性上传。下面是五个部分....
分类:
其他好文 时间:
2014-06-07 02:55:09
阅读次数:
178
声明:
1)本文由我bitpeach原创撰写,转载时请注明出处,侵权必究。2)本小实验工作环境为Windows系统下的百度云(联网),和Ubuntu系统的hadoop1-2-1(自己提前配好)。如不清楚配置可看《Hadoop之词频统计小实验初步配置》3)本文由于过长,无法一次性上传。其相邻相关的博....
分类:
其他好文 时间:
2014-05-30 13:26:48
阅读次数:
538
声明:
1)本文由我bitpeach原创撰写,转载时请注明出处,侵权必究。2)本小实验工作环境为Windows系统下的百度云(联网),和Ubuntu系统的hadoop1-2-1(自己提前配好)。如不清楚配置可看《Hadoop之词频统计小实验初步配置》3)本文由于过长,无法一次性上传。其相邻相关的博....
分类:
其他好文 时间:
2014-05-30 13:25:19
阅读次数:
400
声明:
1)本文由我bitpeach原创撰写,转载时请注明出处,侵权必究。2)本小实验工作环境为Windows系统下的百度云(联网),和Ubuntu系统的hadoop1-2-1(自己提前配好)。如不清楚配置可看《Hadoop之词频统计小实验初步配置》3)本文由于过长,无法一次性上传。其相邻相关的博....
分类:
其他好文 时间:
2014-05-30 13:12:51
阅读次数:
394
声明:
1)本文由我bitpeach原创撰写,转载时请注明出处,侵权必究。2)本小实验工作环境为Windows系统下的百度云(联网),和Ubuntu系统的hadoop1-2-1(自己提前配好)。如不清楚配置可看《Hadoop之词频统计小实验初步配置》3)本文由于过长,无法一次性上传。其相邻相关的博....
分类:
其他好文 时间:
2014-05-30 12:45:25
阅读次数:
563