码迷,mamicode.com
首页 >  
搜索关键字:词频    ( 1120个结果
关于目前分词的想法
目前分词性能比较差,只有1.65M/s,同事在没有改变主要算法的情况下做了一点优化调整,到3.52M/s,但对性能的提升仍然不够明显。我感觉亟须解决几个问题: 1.search时keyword分词也按多种粒度进行,然后分别sloppyphrase,最后or起来,由于大粒度分的词词频低,因此idf大,它们在排序时优先级更高,符合期望。现在只做一个粒度的切法,又要求在索引里面都能找到,感觉不太现实。...
分类:其他好文   时间:2014-06-27 07:07:34    阅读次数:203
Hadoop基础学习(一)分析、编写并运行WordCount词频统计程序
前面已经在我的Ubuntu单机上面搭建好了伪分布模式的HBase环境,其中包括了Hadoop的运行环境。 详见我的这篇博文:http://blog.csdn.net/jiyiqinlovexx/article/details/29208703 我的目的主要是学习HBase,下一步打算学习的是将HBase作为Hadoop作业的输入和输出。 但是好像以前在南大上学时学习的Hadoop都忘记得差不...
分类:其他好文   时间:2014-06-25 08:41:05    阅读次数:889
倒排文档
第一行输出该词所在的行数序号(多个的话,按照从小到大排序输出,中间空格隔开,序号从一开始记),如果没有出现,输出 -1 第二行输出频次排名R的单词出现的次数。 测试数据中的词频的分布如下,可见,排名第3的词,出现的次数为2 I,4 Beijing,2 in,2 love,2 .,1 Bejing,1 a,1 also,1 am,1 and,1 beautiful,1 i...
分类:其他好文   时间:2014-06-18 06:52:00    阅读次数:224
TF-IDF算法简介
TF-IDF算法全称为termfrequency–inversedocumentfrequency。TF就是termfrequency的缩写,意为词频。IDF则是inversedocumentfrequency的缩写,意为逆文档频率。该算法在信息处理中通常用来抽取关键词。比如,对一个文章提取关键词作为搜索词,就可以采用TF-IDF算法。要找出一?.
分类:其他好文   时间:2014-06-10 22:27:19    阅读次数:395
新浪笔试题之删除文本中词频最小的所有字符串
新浪笔试题之删除文本中词频最小的所有字符串...
分类:其他好文   时间:2014-06-07 13:50:48    阅读次数:214
Hadoop的改进实验(中文分词词频统计及英文词频统计) 博文目录结构
声明: 1)本文由我bitpeach原创撰写,转载时请注明出处,侵权必究。2)本小实验工作环境为Windows系统下的百度云(联网),和Ubuntu系统的hadoop1-2-1(自己提前配好)。如不清楚配置可看《Hadoop之词频统计小实验初步配置》3)本文由于过长,无法一次性上传。下面是五个部分....
分类:其他好文   时间:2014-06-07 02:55:09    阅读次数:178
Hadoop的改进实验(中文分词词频统计及英文词频统计)(2/4)
声明: 1)本文由我bitpeach原创撰写,转载时请注明出处,侵权必究。2)本小实验工作环境为Windows系统下的百度云(联网),和Ubuntu系统的hadoop1-2-1(自己提前配好)。如不清楚配置可看《Hadoop之词频统计小实验初步配置》3)本文由于过长,无法一次性上传。其相邻相关的博....
分类:其他好文   时间:2014-05-30 13:26:48    阅读次数:538
Hadoop的改进实验(中文分词词频统计及英文词频统计)(3/4)
声明: 1)本文由我bitpeach原创撰写,转载时请注明出处,侵权必究。2)本小实验工作环境为Windows系统下的百度云(联网),和Ubuntu系统的hadoop1-2-1(自己提前配好)。如不清楚配置可看《Hadoop之词频统计小实验初步配置》3)本文由于过长,无法一次性上传。其相邻相关的博....
分类:其他好文   时间:2014-05-30 13:25:19    阅读次数:400
Hadoop的改进实验(中文分词词频统计及英文词频统计)(4/4)
声明: 1)本文由我bitpeach原创撰写,转载时请注明出处,侵权必究。2)本小实验工作环境为Windows系统下的百度云(联网),和Ubuntu系统的hadoop1-2-1(自己提前配好)。如不清楚配置可看《Hadoop之词频统计小实验初步配置》3)本文由于过长,无法一次性上传。其相邻相关的博....
分类:其他好文   时间:2014-05-30 13:12:51    阅读次数:394
Hadoop的改进实验(中文分词词频统计及英文词频统计)(1/4)
声明: 1)本文由我bitpeach原创撰写,转载时请注明出处,侵权必究。2)本小实验工作环境为Windows系统下的百度云(联网),和Ubuntu系统的hadoop1-2-1(自己提前配好)。如不清楚配置可看《Hadoop之词频统计小实验初步配置》3)本文由于过长,无法一次性上传。其相邻相关的博....
分类:其他好文   时间:2014-05-30 12:45:25    阅读次数:563
1120条   上一页 1 ... 109 110 111 112 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!